大数据 - overfit.cn

KafKa基本原理

待补充。

overfit同步小助手 2024-01-08 05:03:46 0 收藏

Flink系列之：Table API Connectors之Debezium

这也意味着，在非正常情况下，Debezium 可能会投递重复的变更事件到 Kafka 中，当 Flink 从 Kafka 中消费的时候就会得到重复的事件。请使用 debezium-avro-confluent 来解析 Debezium 的 Avro 消息，使用 debezium-json 来解析 D

overfit同步小助手 2024-01-08 03:03:44 0 收藏

Zookeeper

Zookeeper是一个分布式协调服务，最初由雅虎公司开发。它提供了一个简单的文件系统界面，可以在分布式环境中保存和管理数据。Zookeeper的设计目标是提供高性能、高可用、严格顺序的服务。

overfit同步小助手 2024-01-08 03:03:34 0 收藏

HBase的shell操作

查询多条数据: scan。

overfit同步小助手 2024-01-08 02:03:36 0 收藏

最全HSQL命令大全(Hive命令)

最全HSQL命令中文解释，值得收藏

overfit同步小助手 2024-01-08 01:03:47 0 收藏

Hadoop和Spark的区别

1

overfit同步小助手 2024-01-08 01:03:42 0 收藏

【flink】状态清理策略(TTL)

三种状态清理策略不是互斥的，并不是三选一的问题，一般是全量快照清理配合另两个其中的一个来使用（需要根据不同的state backend），可以看到StateTtlConfig.CleanupStrategies.strategies是一个集合来的。

overfit同步小助手 2024-01-07 23:03:42 0 收藏

2023_Spark_实验三十三：配置Standalone模式Spark3.4.2集群

基于Centos7，部署Spark3.4.2组件，实现Standalone模式集群部署。并通过自带的样例代码pi计算验证集群是否ok。

overfit同步小助手 2024-01-07 23:03:21 0 收藏

Hive实战：词频统计

在本次实战中，我们任务是在大数据环境下使用Hive进行词频统计。首先，我们在master虚拟机上创建了一个名为test.txt的文本文件，内容包含一些关键词的句子。接着，我们将该文本文件上传到HDFS的目录，作为数据源。随后，我们启动了服务和Hive客户端，为数据处理做准备。在Hive客户端中，我们

overfit同步小助手 2024-01-07 22:03:50 0 收藏

Hadoop3教程（十五）：MapReduce中的Combiner

介绍了Shuffle中的Combiner机制，包括Combiner的定义、用处、特点，以及如何自定义Combiner类，并贴了一个启用Combiner的MR代码示例

overfit同步小助手 2024-01-07 22:03:45 0 收藏

大数据Flink（九十）：Lookup Join（维表 Join）

Lookup Join 其实就是维表 Join，比如拿离线数仓来说，常常会有用户画像，设备画像等数据，而对应到实时数仓场景中，这种实时获取外部缓存的 Join 就叫做维表 Join。

overfit同步小助手 2024-01-07 21:03:47 0 收藏

深入解析 Flink CDC 增量快照读取机制

overfit同步小助手 2024-01-07 21:03:44 0 收藏

FlinkCDC发展历程和简历中项目描述的思路

Hi，大家好，今天的天气依然很冷。冻成狗了呀！前两天，FlinkCDC 3.0版本发布。Flink CDC的定位也发生了变化，从捕获数据变更的Flink数据源正式迈向为以Flink为基础的端到端流式ELT数据集成框架。这些不是我们今天的重点。今天简单说一下在整个框架发展过程中给我们学习进阶/写简历面

overfit同步小助手 2024-01-07 20:03:47 0 收藏

Hadoop(2)：常见的MapReduce[在Ubuntu中运行！]

1.1 弄清楚MapReduce的各个过程：将文件输入后，返回的代表的含义是：k1表示偏移量，即v1的第一个字母在文件中的索引（从0开始数的）；v1表示对应的一整行的值map阶段：将每一行的内容按照空格进行分割后作为k2，将v2的值写为1后输出reduce阶段：将相同的k2合并后，输出。

overfit同步小助手 2024-01-07 20:03:38 0 收藏

HBase 与 NoSQL 数据库对比:了解 HBase 在大数据领域的优势

HBase 是一个分布式、可扩展、高性能的列式存储数据库，它是 Apache Hadoop 项目的一部分。HBase 设计用于存储海量数据并提供低延迟、自动分区、数据备份和恢复等特性。HBase 是一个 NoSQL 数据库，它与其他 NoSQL 数据库如 Cassandra、MongoDB 等有一定

overfit同步小助手 2024-01-07 19:03:47 0 收藏

ZooKeeper 使用介绍和原理详解

ZooKeeper是一个开源的分布式协调服务，为分布式系统提供高效的管理和协调机制。它被广泛应用于解决分布式系统中的各种共识问题，如配置管理、命名服务、分布式锁、分布式队列、选举算法等。

overfit同步小助手 2024-01-07 19:03:38 0 收藏

1.8万字详解实时数仓建设方案及大厂案例

一、实时数仓建设背景关注公号：数元斋1. 实时需求日趋迫切目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切，需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1，调度频率以天为单位，无法支撑实时场景的数据需求。即使能将调度频率设置成小时，也只能解决部分时效性要求不高的场景，对

overfit同步小助手 2024-01-07 18:03:51 0 收藏

用docker-compose部署Rabbitmq三节点集群部署方案

此外，还可以使用适当的监控工具来监视和管理节点的运行状态。使用 Docker Compose 部署的 RabbitMQ 集群可以在不同的环境中轻松迁移和部署，只需将配置文件和容器镜像移动到新的环境即可。这样我们开机自启就设置完成了，每当我们重启开机的时候，服务就会自动开启，再也不用我们手动启动服务了

overfit同步小助手 2024-01-07 18:03:39 0 收藏

elasticsearch-hadoop.jar 6.8版本编译异常

编译 7.17 版本时很正常，注意设置下环境变量就好，JAVA8_HOME/....编译 6.8 版本时（要求jdk8 / jdk9），出现异常。重新编译 elasticsearch-hadoop 包；

overfit同步小助手 2024-01-07 17:03:49 0 收藏

ChatGPT如何打通金融大数据的任督二脉？

数据整合与治理：金融机构应建立完善的数据整合与治理体系，确保数据的质量、安全和可靠性。风险评估：通过分析大量的金融数据，ChatGPT可以帮助金融机构评估客户信用风险、识别潜在的欺诈行为、预测市场走势等，从而提高风险控制能力和市场竞争力。个性化推荐：借助ChatGPT技术，金融机构可以根据客户的消费

overfit同步小助手 2024-01-07 17:03:34 0 收藏