大数据 - overfit.cn

【ClickHouse】-01.万字带你快速入门使用CK

【ClickHouse】-01.万字带你快速入门使用CKClickHouse安装；ClickHouse引擎；ClickHouse数据类型；ClickHouse Sql 案例操作

overfit同步小助手 2022-09-20 07:27:17 0 收藏

离线数仓搭建_05_电商业务简介与业务数据说明

本文为离线数仓，业务数据介绍部分，主要帮助读者了解关于电商业务数据的相关内容！

overfit同步小助手 2022-09-20 07:26:32 0 收藏

湖仓一体电商项目（十六）：业务实现之编写写入ODS层业务代码

这里也可以不设置从头开始消费Kafka数据，而是直接启动实时向MySQL表中写入数据代码“RTMockDBData.java”代码，实时向MySQL对应的表中写入数据，这里需要启动maxwell监控数据，代码才能实时监控到写入MySQL的业务数据。以上代码执行后在，在对应的Kafka “KAFKA-

overfit同步小助手 2022-09-20 07:26:18 0 收藏

Flink多流转换（一）

所谓“分流”，就是将一条数据流拆分成完全独立的两条、甚至多条流。也就是基于一个DataStream，得到完全平等的多个子 DataStream，如图所示。一般来说，我们会定义一些筛选条件，将符合条件的数据拣选出来放到对应的流里。其实根据条件筛选数据的需求，本身非常容易实现：只要针对同一条流多次独

overfit同步小助手 2022-09-19 10:26:43 0 收藏

hive shell中有许多日志信息的解决办法

hive shell中出现大量日志信息的解决办法！hive-3.1.2

overfit同步小助手 2022-09-19 10:26:27 0 收藏

Kafka 生产者和消费者实例

基于命令行使用Kafka类似scala，mysql等，命令行是初学者操作Kafka的基本方式，kafka的模式是生产者消费者模式，他们之间通讯是通过，一个公共频道完成。指定消费者组ID，在同一时刻同一消费组中只有一个线程可以去消费一个分区数据，不同的消费组可以去消费同一个分区的数据。(查看Kafka

overfit同步小助手 2022-09-18 08:14:27 0 收藏

【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享

【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享要做好数据治理个人认为的有两个方向可以去尝试：1.像网易做的一体化方案，直接从数据开发，数据建模源端就开始进行管控 2.先定义好标准, 数据治理平台便是数据抽象层(标准层),实现一种数据注册的机制将原先的开发过程+设计+需求抽象

overfit同步小助手 2022-09-18 08:14:17 0 收藏

【信息科学技术与创新】数字世界智能系统人机交互增强智能虚拟化趋势与元宇宙浪潮《元宇宙七大规则》

overfit同步小助手 2022-09-17 07:14:47 0 收藏

days04-对es分布式搜索引擎进行实战

以上就是对es的简单实践，包括对索引库以及文档的CRUD、最后实现了数据的批处理。

overfit同步小助手 2022-09-17 07:14:43 0 收藏

centOS7系统虚拟机节点的搭建

随着计算机的发展，越来越多的人认识到大数据的优点，这时就不得不提Hadoop，Hadoop能够处理海量数据的存储和海量数据的分析计算问题，具有4高优势：（1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。（2）高扩展性：在集群间分配

overfit同步小助手 2022-09-17 07:14:36 0 收藏

大数据计算框架及引擎介绍

主流的大数据处理框架包括以下三类五种：1、仅批处理框架：Apache Hadoop2、仅流处理框架：Apache Storm、Apache Samza3、混合框架：Apache Spark、Apache Flink

overfit同步小助手 2022-09-17 07:14:30 0 收藏

Flink - ProcessFunction 使用缓存详解

Flink 使用 LRUCache 与 GuavaCache 详解。

overfit同步小助手 2022-09-17 07:14:22 0 收藏

第二节HDFS完全分布式集群搭建与配置及常见问题总结

适用于Hadoop中的HDFS完全分布式集群

overfit同步小助手 2022-09-16 07:08:09 0 收藏

python大数据之dataframe常用操作

详细讲解了dataframe的常用操作，包含创建，增删改查，算数运算，逻辑运算，常用聚合函数以及lamda函数的使用等

overfit同步小助手 2022-09-16 07:08:05 0 收藏

大数据ClickHouse进阶（六）：Distributed引擎深入了解

Distributed引擎和Merge引擎类似，本身不存放数据,功能是在不同的server上把多张相同结构的物理表合并为一张逻辑表。注意：创建分布式表是读时检查的机制，也就是说对创建分布式表和本地表的顺序并没有强制要求。有了分布式表之后，我们就可以向分布式表中插入数据，那么分布式表会根据配置的sha

overfit同步小助手 2022-09-16 07:07:46 0 收藏

猿创征文｜ZooKeeper（伪）集群搭建

3、将Zookeeper解压，建立/usr/local/zookeeper-cluster目录，将解压后的Zookeeper复制到以下三个目录。我们会发现，2号服务器启动后依然是跟随者（从服务器），3号服务器依然是领导者（主服务器），没有撼动3号服务器的领导地位。由此得出结论，3个节点的集群，2个

overfit同步小助手 2022-09-15 11:07:27 0 收藏

大数据ClickHouse进阶（五）：副本与分片

table_name”表示数据表的名称，通常与物理表的名字相同。以上我们创建的person_score表在ClickHouse集群节点node1、node2、node3上都是本地表，插入数据时插入到了对应节点的分片上，查询时也只能查询对应节点上的分片数据，如果我们想要通过一张表将各个ClickHou

overfit同步小助手 2022-09-15 11:07:23 0 收藏

Flink - Kafka 下发消息过大异常分析与 Kafka Producer 源码浅析

Flink / Kafka 下发消息过大异常分析与 Kafka Producer 源码浅析。

overfit同步小助手 2022-09-14 07:24:36 0 收藏

Delta Lake 是什么？

Delta Lake 是一个开源项目，它可以运行在你现有的数据湖之上，可以在数据湖上构建湖仓一体架构，并且与 Apache Spark API 完全兼容。

overfit同步小助手 2022-09-13 10:24:49 0 收藏

Flink 中的时间和窗口（一）

在事件时间语义下，我们不依赖系统时间，而是基于数据自带的时间戳去定义了一个时钟，用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟，它的前进是靠数据的时间戳来驱动的。但在分布式系统中，这种驱动方式又会有一些问题。因为数据本身在处理转换的过程中会变化，如果遇到窗口聚合这样的操作，

overfit同步小助手 2022-09-13 10:24:46 0 收藏