大数据 - overfit.cn

Kafka 生产者和消费者实例

基于命令行使用Kafka类似scala，mysql等，命令行是初学者操作Kafka的基本方式，kafka的模式是生产者消费者模式，他们之间通讯是通过，一个公共频道完成。指定消费者组ID，在同一时刻同一消费组中只有一个线程可以去消费一个分区数据，不同的消费组可以去消费同一个分区的数据。(查看Kafka

overfit同步小助手 2022-09-18 08:14:27 0 收藏

【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享

【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享要做好数据治理个人认为的有两个方向可以去尝试：1.像网易做的一体化方案，直接从数据开发，数据建模源端就开始进行管控 2.先定义好标准, 数据治理平台便是数据抽象层(标准层),实现一种数据注册的机制将原先的开发过程+设计+需求抽象

overfit同步小助手 2022-09-18 08:14:17 0 收藏

【信息科学技术与创新】数字世界智能系统人机交互增强智能虚拟化趋势与元宇宙浪潮《元宇宙七大规则》

overfit同步小助手 2022-09-17 07:14:47 0 收藏

days04-对es分布式搜索引擎进行实战

以上就是对es的简单实践，包括对索引库以及文档的CRUD、最后实现了数据的批处理。

overfit同步小助手 2022-09-17 07:14:43 0 收藏

centOS7系统虚拟机节点的搭建

随着计算机的发展，越来越多的人认识到大数据的优点，这时就不得不提Hadoop，Hadoop能够处理海量数据的存储和海量数据的分析计算问题，具有4高优势：（1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。（2）高扩展性：在集群间分配

overfit同步小助手 2022-09-17 07:14:36 0 收藏

大数据计算框架及引擎介绍

主流的大数据处理框架包括以下三类五种：1、仅批处理框架：Apache Hadoop2、仅流处理框架：Apache Storm、Apache Samza3、混合框架：Apache Spark、Apache Flink

overfit同步小助手 2022-09-17 07:14:30 0 收藏

Flink - ProcessFunction 使用缓存详解

Flink 使用 LRUCache 与 GuavaCache 详解。

overfit同步小助手 2022-09-17 07:14:22 0 收藏

第二节HDFS完全分布式集群搭建与配置及常见问题总结

适用于Hadoop中的HDFS完全分布式集群

overfit同步小助手 2022-09-16 07:08:09 0 收藏

python大数据之dataframe常用操作

详细讲解了dataframe的常用操作，包含创建，增删改查，算数运算，逻辑运算，常用聚合函数以及lamda函数的使用等

overfit同步小助手 2022-09-16 07:08:05 0 收藏

大数据ClickHouse进阶（六）：Distributed引擎深入了解

Distributed引擎和Merge引擎类似，本身不存放数据,功能是在不同的server上把多张相同结构的物理表合并为一张逻辑表。注意：创建分布式表是读时检查的机制，也就是说对创建分布式表和本地表的顺序并没有强制要求。有了分布式表之后，我们就可以向分布式表中插入数据，那么分布式表会根据配置的sha

overfit同步小助手 2022-09-16 07:07:46 0 收藏

猿创征文｜ZooKeeper（伪）集群搭建

3、将Zookeeper解压，建立/usr/local/zookeeper-cluster目录，将解压后的Zookeeper复制到以下三个目录。我们会发现，2号服务器启动后依然是跟随者（从服务器），3号服务器依然是领导者（主服务器），没有撼动3号服务器的领导地位。由此得出结论，3个节点的集群，2个

overfit同步小助手 2022-09-15 11:07:27 0 收藏

大数据ClickHouse进阶（五）：副本与分片

table_name”表示数据表的名称，通常与物理表的名字相同。以上我们创建的person_score表在ClickHouse集群节点node1、node2、node3上都是本地表，插入数据时插入到了对应节点的分片上，查询时也只能查询对应节点上的分片数据，如果我们想要通过一张表将各个ClickHou

overfit同步小助手 2022-09-15 11:07:23 0 收藏

Flink - Kafka 下发消息过大异常分析与 Kafka Producer 源码浅析

Flink / Kafka 下发消息过大异常分析与 Kafka Producer 源码浅析。

overfit同步小助手 2022-09-14 07:24:36 0 收藏

Delta Lake 是什么？

Delta Lake 是一个开源项目，它可以运行在你现有的数据湖之上，可以在数据湖上构建湖仓一体架构，并且与 Apache Spark API 完全兼容。

overfit同步小助手 2022-09-13 10:24:49 0 收藏

Flink 中的时间和窗口（一）

在事件时间语义下，我们不依赖系统时间，而是基于数据自带的时间戳去定义了一个时钟，用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟，它的前进是靠数据的时间戳来驱动的。但在分布式系统中，这种驱动方式又会有一些问题。因为数据本身在处理转换的过程中会变化，如果遇到窗口聚合这样的操作，

overfit同步小助手 2022-09-13 10:24:46 0 收藏

Kafka集群部署与测试

Kafka集群部署与测试安装Kafka①、Alt+P 拷贝安装包 cd /opt/moduletar -zxvf /opt/software/kafka_2.11-2.0.0.tgz -C /opt/module/②、修改配置文件vi /opt/module/kafka_2.11-2.0.0/co

overfit同步小助手 2022-09-13 10:24:35 0 收藏

湖仓一体电商项目（十一）：编写写入DWS层业务代码

DWS层主要是存放大宽表数据，此业务中主要是针对Kafka topic “KAFKA-DWD-BROWSE-LOG-TOPIC”中用户浏览商品日志数据关联HBase中“ODS_PRODUCT_CATEGORY”商品分类表与“ODS_PRODUCT_INFO”商品表维度数据获取浏览商品主题大宽表。Fl

overfit同步小助手 2022-09-11 11:24:37 0 收藏

湖仓一体电商项目（十二）：编写写入DM层业务代码

DM层主要是报表数据，针对实时业务将DM层设置在Clickhouse中，在此业务中DM层主要存储的是通过Flink读取Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中的数据进行设置窗口分析，每隔10s设置滚动窗口统计该窗口内访问商品及商品一级、二级分类分析

overfit同步小助手 2022-09-11 11:24:29 0 收藏

spark3总结——分区数对带有初始值聚合操作的影响

overfit同步小助手 2022-09-10 07:54:15 0 收藏

SparkSQL 总结（未完待续）

Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。

overfit同步小助手 2022-09-10 07:54:13 0 收藏