大数据 - overfit.cn

五分钟，Docker安装kafka 3.5，kafka-map图形化管理工具

在开启一个新的终端，一个作为生产者，一个作为消费者。在消费者页面查看，可见内容。

overfit同步小助手 2024-01-13 00:03:10 0 收藏

Hive实战：学生信息排序

本次实战利用Hive处理HDFS中学生信息数据，通过创建外部表、执行SQL查询及排序操作，展示了Hive对结构化大数据的高效处理能力，包括按年龄降序和性别升序复合排序。该过程旨在深入教学Hive在数据建模、查询与分析中的应用价值。

overfit同步小助手 2024-01-12 23:03:31 0 收藏

【数据采集与预处理】数据接入工具Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。本文主要介绍Kafka以及安装配置。

overfit同步小助手 2024-01-12 23:03:11 0 收藏

RabbitMQ 教程

自学的教程，留存一份。

overfit同步小助手 2024-01-12 21:03:29 0 收藏

深度解析：Kafka、ActiveMQ、RabbitMQ、RocketMQ的区别与比较

适用于大规模数据流处理，日志收集等场景。适用于JMS标准，中小规模系统，要求易用性和灵活性的场景。适用于灵活的路由机制，对消息传递有较高要求的场景。适用于对事务性和有序性要求较高的场景，如电商支付等。Kafka、ActiveMQ、RabbitMQ、RocketMQ都有各自的特点和优势，选择合适的消息

overfit同步小助手 2024-01-12 20:03:44 0 收藏

Hadoop-MapReduce使用说明

MapReduce是一个开源的分布式软件框架，可以让你很容易的编写程序（继承Mapper和Reducer，重写map和reduce方法）去处理大数据。你只需要简单设置下参数提交下，框架会为你的程序安排任务，监视它们并重新执行失败的任务。下面让我们跟着官网来学习下吧。

overfit同步小助手 2024-01-12 19:03:50 0 收藏

大数据——数据从Hive导入MySQL

首先，Hive MySQL Hadoop 要确保没问题，若有小伙伴对这个有疑问，可以在评论区提问。目录可以根据实际情况进行修改，下面的表名“user_action"同理；现在可以进入浏览器Hadoop的web页面查看数据表是否导入到。先启动Hadoop集群，为之后获取Hive数据表做准备。将刚刚

overfit同步小助手 2024-01-12 19:03:35 0 收藏

第二十一章： Spring Boot 集成RabbitMQ（五）

本章重点：消息可靠性场景、消息100%可靠性发送的技术架构以及实践案例。

overfit同步小助手 2024-01-12 16:03:37 0 收藏

数仓工具—Hive进阶之StorageHandler(23)

当在Apache Hive中定义和操作表时，涉及到的数据的输入和输出以及数据的序列化和反序列化都需要明确定义，这就是 InputFormat、OutputFormat 和 SerDe 的作用。存储处理程序通过指定合适的 InputFormat、OutputFormat 和 SerDe，定义了与特定存

overfit同步小助手 2024-01-12 16:03:24 0 收藏

全网最清晰 SpringCloud-Eureka Server流程

EnableEurekaServer注解开启了EurekaServerAutoConfiguration这个配置类的解析，EurekaServerAutoConfiguration这个配置了主要准备了看板、注册发现、启动引导、Jersey等，EurekaServerInitializerConfig

overfit同步小助手 2024-01-12 15:04:27 0 收藏

FlinkCDC的分析和应用代码

本文将从FlinkCDC应用场景开始，然后讲述其基于Flink的实现原理和代码应用，为下一篇介绍基于Flink开发定制化引擎做铺垫。

overfit同步小助手 2024-01-12 15:04:11 0 收藏

zookeeper4==zookeeper源码阅读，FOLLOWER收到了需要LEADER执行的命令后各节点会执行什么

上面已经阅读并观察了节点确定自己的身份后会做些什么，大致就是比对双方信息然后完成同步。本篇阅读，FOLLOWER收到了需要LEADER执行的命令后，怎么同步给LEADER的，并且LEADER会执行什么操作。

overfit同步小助手 2024-01-12 14:03:37 0 收藏

Java经典框架之Zookeeper

ZXID，事务id，为节点的更新程度，ZXID越大，代表Server对Znode的操作越新。我们需要在Zookeeper的数据存储的目录中创建一个myid文件，文件中的内容只有一行信息，即表示我们集群几点的标识，范围是1-255，每个节点的myid的数字和我们在zoo.cfg中配置的server.数

overfit同步小助手 2024-01-12 14:03:18 0 收藏

如何将Redis、Zookeeper、Nacos配置为Windows系统的一个服务

overfit同步小助手 2024-01-12 13:03:18 0 收藏

基于spark的Hive2Pg数据同步组件

行是只读的，因此您无法更新行的值。： prep是一个PrepareStatement对象，这个对象无法序列化，在标1的地方执行，而传入map中的对象是需要分布式传送到各个节点上，传送前先序列化，到达相应机器上后再反序列化，PrepareStatement是个Java类，如果一个java类想(反)序列

overfit同步小助手 2024-01-12 12:03:56 0 收藏

Flink实战(1)-了解Flink

大数据、实时计算、使用python Flink 数据开发Flink框架搭建PyFLink环境PyFLink的WordCount编程

overfit同步小助手 2024-01-12 12:03:20 0 收藏

Hadoop 高可用集群完全分布式安装教程一篇就够用（zookeeper、spark、hbase、mysql、hive)

Hadoop 高可用集群完全分布式安装教程（zookeeper、spark、hbase、mysql、hive）

overfit同步小助手 2024-01-12 11:03:47 0 收藏

Kafka与RabbitMQ的区别

Apache Kafka是一个开源流处理平台，由Scala和Java编写，由Apache软件基金会开发。它是一个高吞吐量的分布式发布订阅消息系统，可以处理消费者在网站中的所有动作流数据。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又

overfit同步小助手 2024-01-12 09:03:38 0 收藏

尚硅谷Flink（完）FlinkSQL

⚫ 标量函数（Scalar Functions）：将输入的标量值转换成一个新的标量值；⚫ 表函数（Table Functions）：将标量值转换成一个或多个新的行数据，也就是扩展成一个表；⚫ 聚合函数（Aggregate Functions）：将多行数据里的标量值转换成一个新的标量值；⚫ 表聚合函数

overfit同步小助手 2024-01-12 09:03:34 0 收藏

解决Hive在DataGrip 中注释乱码问题

COLUMNS_V2 表中的 COMMENT 字段存储了 Hive 表所有字段的注释，TABLE_PARAMS 表中的 PARAM_VALUE 字段存储了所有表的注释。数据库中的字符都是通过编码存储的，写入时编码，读取时解码。修改字段编码并不会改变此前数据的编码方式，依然为默认的 latin1，此时

overfit同步小助手 2024-01-12 09:03:29 0 收藏