大数据 - overfit.cn

Apache Doris 系列：入门篇-数据导入及查询

Doris 为了满足不同业务场景的数据接入需求，提供不丰富的数据导入方式，去支持不同的数据源：外部存储（HDFS，对象存储）、本地文件、消息队列（Kafka）及其他外部业务系统数据库（MySQL、Oracle、SQLServer、PostgreSQL等），支持同步和异步的方式将数据接入到 Doris

overfit同步小助手 2023-04-02 02:04:16 0 收藏

【Hbase篇】浏览器访问 Hbase web端页面被拒绝连接

【问题现象】浏览器访问 Hbase 页面出现：http://hadoop102:16010【问题分析】首先先检查自己的 hadoop集群、zooker集群、hbase是否已经起来了检查后发现集群都已经起来了，那进一步排查。再次刷新下浏览器访问hbase页面，记录下此刻时间,然后去查看Hbase日志信

overfit同步小助手 2023-04-02 01:04:38 0 收藏

大数据开源框架之基于Spark的气象数据处理与分析

本次实验所采用的数据，从中央气象台官方网站（网址：http://www.nmc.cn/）爬取，主要是最近24小时各个城市的天气数据，包括时间整点、整点气温、整点降水量、风力、整点气压、相对湿度等。正常情况每个城市对应24条数据（每个整点一条）。数据规模达到2412个城市，57888条数据，有部分城市

overfit同步小助手 2023-04-02 01:04:25 0 收藏

eureka如何剔除和恢复某个服务

在开发环境中，同一个服务经常被其他开发人员注册到开发环境，导致服务没法正常访问，那么如何将该服务剔除或下线?

overfit同步小助手 2023-04-02 01:04:18 0 收藏

kafka修改Topic副本数和分区数

kafka日常运维

overfit同步小助手 2023-04-02 01:04:11 0 收藏

Hadoop、HDFS、Hive、Hbase之间的关系

Hbase：是一款基于HDFS的数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如日志明细、交易清单、轨迹行为等。Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。Hive：用户

overfit同步小助手 2023-04-02 01:03:59 0 收藏

zookeeper启动报错出现Starting zookeeper ... FAILED TO START详细解决方案

zookeeper启动时出现/usr/local/apache-zookeeper-3.5.9-bin/bin/../没有权限等问题

overfit同步小助手 2023-04-02 00:04:37 0 收藏

TDengine 时序数据特色查询语法详解，助力时序场景下的应用开发

TDengine 是专为时序数据而研发的大数据平台，存储和计算都针对时序数据的特点量身定制，在支持标准 SQL 的基础之上，还提供了一系列贴合时序业务场景的特色查询语法，极大地方便了时序场景的应用开发。TDengine 提供的特色查询包括数据切分查询和窗口切分查询，本文将从语法层面深入解读这两种特色

overfit同步小助手 2023-04-02 00:04:32 0 收藏

logstash+elasticsearch+Kibana(ELK)日志收集

访问 http://ip:9200,http://ip:5601看es,kibana是否安装完成。3.3 进入logstash容器的挂载目录logstash.conf。3.进入容器后执行以下命令傻瓜式设置账号密码。2.重启es容器并进入es容器。3.2 重启logstash。

overfit同步小助手 2023-04-02 00:04:29 0 收藏

Hadoop环境搭建-单机、伪分布式、完全分布式

本文详细的写有：hadoop单机安装、hadoop伪分布式环境搭建、hadoop完全分布式环境搭建的步骤

overfit同步小助手 2023-04-02 00:04:24 0 收藏

如何快速完成园区数据的可视化分析？

对于园区运营方来说，如果没有专业针对性的管理方案以及管理系统辅助的话，实现园区可视化管理的难度非常大，而且操作成本会很高。但如果园区运营方选择引进快鲸智慧楼宇推出的园区数据孪生可视化管理系统的话就会简单很多。

overfit同步小助手 2023-04-02 00:04:16 0 收藏

FlinkSQL字段血缘解决方案及源码

overfit同步小助手 2023-04-02 00:04:10 0 收藏

2000-2020全要素生产率OP法+LP法+OLS和固定效应法三种方法合集含原始数据和计算过程Stata代码

2000-2020全要素生产率OP法+LP法+OLS和固定效应法数据和Stata代码

overfit同步小助手 2023-04-02 00:04:07 0 收藏

虚拟机安装Hadoop

Hadoop的安装

overfit同步小助手 2023-04-02 00:04:04 0 收藏

RabbitMQ学习总结（10）—— RabbitMQ如何保证消息的可靠性

一、丢失场景RabbitMQ丢失的以下3种情况：（1）生产者：生产者发送消息至MQ的数据丢失（2）RabbitMQ：MQ收到消息，暂存内存中，还没消费，自己挂掉，数据会都丢失（3）消费者：消费者刚拿到消息，还没处理，挂掉了，MQ又以为消费者处理完二、解决方案。

overfit同步小助手 2023-04-02 00:03:59 0 收藏

Hive与HBase的区别及应用场景

Hive和Hbase的区别

overfit同步小助手 2023-04-02 00:03:56 0 收藏

Flink中的JDBC SQL Connector

Flink中的JDBC SQL ConnectorJDBC 连接器允许使用 JDBC 驱动程序从任何关系数据库读取数据并将数据写入数据。本文档介绍如何设置 JDBC 连接器以针对关系数据库运行 SQL 查询。如果在 DDL 上定义了主键，则 JDBC sink 以 upsert 模式与外部系统交换

overfit同步小助手 2023-04-01 23:04:50 0 收藏

使用Java操作HBase（增，删，改，查操作）

在这里我用的是idea操作的一、配置1.首先确保HBase集群已经开启[root@hadoop ~]# jps2761 HQuorumPeer2137 ResourceManager7114 Jps2858 HMaster1691 NameNode1789 DataNode2237 NodeMana

overfit同步小助手 2023-04-01 23:04:45 0 收藏

数据库与数据仓库的本质区别是什么？

另外，随着业务的快速发展，中小企业业务逐步增多，公司对精细化管理提出更高要求，内外部数据的使用、统计、分析工作成为日常办公的基本需要，信息中心在数据服务方面的提升迫在眉睫，同时各部门也对数据服务的提供方式、提供的时效性、使用的灵活性提出了较高要求。目前主要的就有大单、零售、助融、财务、资金、OA、H

overfit同步小助手 2023-04-01 23:04:41 0 收藏

T5 的尝试

T5 微调 3.参数列表（data dir 与 ouput dir 根据文件位置修改）4.下面进入各种github 主的各类NLP 任务IMDB review classificationtrain_pos_files = glob.glob('aclImdb/train/pos/*.txt

overfit同步小助手 2023-04-01 23:04:32 0 收藏