大数据 - overfit.cn

大数据——数据从Hive导入MySQL

首先，Hive MySQL Hadoop 要确保没问题，若有小伙伴对这个有疑问，可以在评论区提问。目录可以根据实际情况进行修改，下面的表名“user_action"同理；现在可以进入浏览器Hadoop的web页面查看数据表是否导入到。先启动Hadoop集群，为之后获取Hive数据表做准备。将刚刚

overfit同步小助手 2024-01-12 19:03:35 0 收藏

第二十一章： Spring Boot 集成RabbitMQ（五）

本章重点：消息可靠性场景、消息100%可靠性发送的技术架构以及实践案例。

overfit同步小助手 2024-01-12 16:03:37 0 收藏

数仓工具—Hive进阶之StorageHandler(23)

当在Apache Hive中定义和操作表时，涉及到的数据的输入和输出以及数据的序列化和反序列化都需要明确定义，这就是 InputFormat、OutputFormat 和 SerDe 的作用。存储处理程序通过指定合适的 InputFormat、OutputFormat 和 SerDe，定义了与特定存

overfit同步小助手 2024-01-12 16:03:24 0 收藏

全网最清晰 SpringCloud-Eureka Server流程

EnableEurekaServer注解开启了EurekaServerAutoConfiguration这个配置类的解析，EurekaServerAutoConfiguration这个配置了主要准备了看板、注册发现、启动引导、Jersey等，EurekaServerInitializerConfig

overfit同步小助手 2024-01-12 15:04:27 0 收藏

FlinkCDC的分析和应用代码

本文将从FlinkCDC应用场景开始，然后讲述其基于Flink的实现原理和代码应用，为下一篇介绍基于Flink开发定制化引擎做铺垫。

overfit同步小助手 2024-01-12 15:04:11 0 收藏

zookeeper4==zookeeper源码阅读，FOLLOWER收到了需要LEADER执行的命令后各节点会执行什么

上面已经阅读并观察了节点确定自己的身份后会做些什么，大致就是比对双方信息然后完成同步。本篇阅读，FOLLOWER收到了需要LEADER执行的命令后，怎么同步给LEADER的，并且LEADER会执行什么操作。

overfit同步小助手 2024-01-12 14:03:37 0 收藏

Java经典框架之Zookeeper

ZXID，事务id，为节点的更新程度，ZXID越大，代表Server对Znode的操作越新。我们需要在Zookeeper的数据存储的目录中创建一个myid文件，文件中的内容只有一行信息，即表示我们集群几点的标识，范围是1-255，每个节点的myid的数字和我们在zoo.cfg中配置的server.数

overfit同步小助手 2024-01-12 14:03:18 0 收藏

如何将Redis、Zookeeper、Nacos配置为Windows系统的一个服务

overfit同步小助手 2024-01-12 13:03:18 0 收藏

基于spark的Hive2Pg数据同步组件

行是只读的，因此您无法更新行的值。： prep是一个PrepareStatement对象，这个对象无法序列化，在标1的地方执行，而传入map中的对象是需要分布式传送到各个节点上，传送前先序列化，到达相应机器上后再反序列化，PrepareStatement是个Java类，如果一个java类想(反)序列

overfit同步小助手 2024-01-12 12:03:56 0 收藏

Flink实战(1)-了解Flink

大数据、实时计算、使用python Flink 数据开发Flink框架搭建PyFLink环境PyFLink的WordCount编程

overfit同步小助手 2024-01-12 12:03:20 0 收藏

Hadoop 高可用集群完全分布式安装教程一篇就够用（zookeeper、spark、hbase、mysql、hive)

Hadoop 高可用集群完全分布式安装教程（zookeeper、spark、hbase、mysql、hive）

overfit同步小助手 2024-01-12 11:03:47 0 收藏

Kafka与RabbitMQ的区别

Apache Kafka是一个开源流处理平台，由Scala和Java编写，由Apache软件基金会开发。它是一个高吞吐量的分布式发布订阅消息系统，可以处理消费者在网站中的所有动作流数据。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又

overfit同步小助手 2024-01-12 09:03:38 0 收藏

尚硅谷Flink（完）FlinkSQL

⚫ 标量函数（Scalar Functions）：将输入的标量值转换成一个新的标量值；⚫ 表函数（Table Functions）：将标量值转换成一个或多个新的行数据，也就是扩展成一个表；⚫ 聚合函数（Aggregate Functions）：将多行数据里的标量值转换成一个新的标量值；⚫ 表聚合函数

overfit同步小助手 2024-01-12 09:03:34 0 收藏

解决Hive在DataGrip 中注释乱码问题

COLUMNS_V2 表中的 COMMENT 字段存储了 Hive 表所有字段的注释，TABLE_PARAMS 表中的 PARAM_VALUE 字段存储了所有表的注释。数据库中的字符都是通过编码存储的，写入时编码，读取时解码。修改字段编码并不会改变此前数据的编码方式，依然为默认的 latin1，此时

overfit同步小助手 2024-01-12 09:03:29 0 收藏

zookeeper权限控制

ACL全称为Access Control List（访问控制列表），用于控制资源的访问权限。分为三个维度：scheme、id、permission，schema代表授权策略，id代表用户，permission代表权限。

overfit同步小助手 2024-01-12 09:03:18 0 收藏

大数据技能大赛答案

overfit同步小助手 2024-01-12 07:03:39 0 收藏

2024.1.3 Spark架构角色和提交任务流程

Cluster Manager：集群管理器是负责管理整个Spark集群的组件，它可以是Standalone模式下的Spark自带的集群管理器，也可以是其他第三方集群管理器，如YARN或Mesos。TaskScheduler：维护所有TaskSet，分发Task给各个节点的Executor（根据数据本

overfit同步小助手 2024-01-12 07:03:17 0 收藏

Spark相关知识点（期末复习集锦）

Spark实时大数据分析相关知识点

overfit同步小助手 2024-01-12 06:03:44 0 收藏

RabbitMQ 报错：Failed to declare queue(s):[QD, QA, QB]

实在没想到会犯这种低级错误。

overfit同步小助手 2024-01-12 06:03:20 0 收藏

2023_Spark_实验二十六：编写Shell模拟生成点击实时数据

通过shell开发脚本，模拟产生实时的实验数据，shell函数自定义及调用

overfit同步小助手 2024-01-12 06:03:15 0 收藏