大数据 - overfit.cn

Datax与Datax-Web安装部署

详细记录了datax与datax-web安装部署过程。

overfit同步小助手 2023-03-30 04:05:12 0 收藏

hadoop格式化时报错

Re-format filesystem in Storage Directory root= /data/hadoop/hdfs/name; location= null ? (Y or N)

overfit同步小助手 2023-03-30 04:05:08 0 收藏

docker搭建hadoop和hive集群

Dockfile文件的内容解释：基于centos镜像，生成带有spenssh-server、openssh-clients的镜像，用户为root，密码为a123456，镜像维护者（作者）为hadoop。因为集群的服务器之间需要通信，而且每次虚拟机给集群分配的ip地址都不一样，所以需要创建网桥，给每台

overfit同步小助手 2023-03-30 04:05:03 0 收藏

hadoop3.3.4集群安装部署

Hadoop集群安装部署

overfit同步小助手 2023-03-30 04:05:00 0 收藏

Spark项目实战-数据清洗

SparkSql单次处理Web日志，分析用户留存率

overfit同步小助手 2023-03-30 04:04:57 0 收藏

Spring Boot整合RabbitMq 重写confirm不生效

overfit同步小助手 2023-03-30 04:04:53 0 收藏

【Kafka】Kafka在多Partition多实例情况下，消息的消费和生产情况验证

通过实验验证了Kafka在多Partition多实例情况下，消息的消费和生产情况：（1）一个partition最多被一个实例（同一消费组）消费。（2）一个实例可以同时消费多个partition。（3）当通过key将topic消息写入Kafka时，相同key的消息保证能写入同一个partition。

overfit同步小助手 2023-03-30 04:04:50 0 收藏

查es大于10000条数据-滚动查询（scroll）

查es大于10000条数据-滚动查询（scroll）,总所周知，es一般查询只支持最多查询出前1w条数据，很难受。想要一次性查询出你想要的数据，一些大数据的场景下，我们需要用到ElasicSearch的两种查询方式：==深度分页==或者==滚动查询==，我们今天使用的是滚动查询方式，因为需要一批次加

overfit同步小助手 2023-03-30 04:04:47 0 收藏

python 安装pyspark_Python学习—PySpark环境搭建

PySpark环境搭建

overfit同步小助手 2023-03-30 04:04:44 0 收藏

Nacos 配置中心使用详解

nacos config配置中心使用详解

overfit同步小助手 2023-03-30 04:04:37 0 收藏

03-Zookeeper典型使用场景实战

幽灵结点是指当客户端创建节点成功后，没有收到服务端的回应，也就是客户端不知道自己已经成功创建了节点。这样就又会尝试创建新的结点，那之前创建的结点就是幽灵结点了。解决：Zookeeper规避的方式就是创建的时候给前面加一个uuid，客户端去创建节点的时候会先按这个uuid找。有的话就不会再创建。

overfit同步小助手 2023-03-30 04:04:34 0 收藏

idea连接kerberos认证的hive

其实用dbeaver连接hive就可以了。但是呢，idea也有这个功能，本着研究下的想法就试试。结果最后成功了最后记录下。参考文章。感觉不太行里面提到了两个解决办法，个人只习惯用第一个。新增一个hive数据源url填写AuthMech=1;vm option填写。

overfit同步小助手 2023-03-30 04:04:30 0 收藏

Python房价分析和可视化＜房天下二手房＞

房价分析系列-贵阳二手房房天下。

overfit同步小助手 2023-03-30 03:05:29 0 收藏

Hadoop集群环境配置搭建

Hadoop集群配置搭建

overfit同步小助手 2023-03-30 03:05:24 0 收藏

多图详解 kafka 生产者消息发送过程

整个生产者客户端是由主线程和 Sender 线程协调运行的, 主线程创建消息, 然后通过拦截器、元信息更新、序列化、分区器、缓存消息等等流程。然后 Sender 线程在初始化的时候就已经运行了,并且是一个 while 循环。Sender 线程里面主要工作是：去消息累加器里面获取有哪些 Node 是

overfit同步小助手 2023-03-30 03:05:21 0 收藏

Flink原理与实现：数据交换策略

数据交换策略（Data Exchange Strategy）定义了数据如何被分配到物理数据流图的 Task 中的。

overfit同步小助手 2023-03-30 03:05:17 0 收藏

kafka进程不定期挂掉（配置文件日志位置问题，困扰一年之久）

2、linux会定时清理/tmp目录下的文件，我的kafka日志文件目录正是放在了/tmp/kafka-logs目录下，导致被定时给清理掉了，所以kafka在尝试读取或追加日志时就会出错。centos7下/tmp目录的清理由服务systemd负责，其相关配置文件在/usr/lib/tmpfiles.

overfit同步小助手 2023-03-30 03:05:14 0 收藏

几款ZooKeeper可视化工具，最后一个美炸了~

本文首发于公众号BiggerBoy。通过人为操作去查看、管理ZK上的数据时，就亟需一个可视化操作界面。下面给大家介绍几款目前市面上流行的ZK可视化工具，有需要时就可以直接用啦。

overfit同步小助手 2023-03-30 03:05:08 0 收藏

RabbitMQ：订阅模型-消息订阅模式

订阅模型-消息订阅模式，也可以称为广播模式，生产者将消息发送到 Exchange，Exchange 再转发到与之绑定的 Queue中，每个消费者再到自己的 Queue 中取消息。RabbitMQ 单生产单消费模型主要有以下五个角色构成：生产者（producer/ publisher）：一个发送消息的

overfit同步小助手 2023-03-30 03:05:04 0 收藏

【Flink系列】开启jdbc批量写入

值得注意的是，useServerPrepStmts开启后，客户端不再对SQL预编译，也就是说上面说的SQL改写也不会发生，所以在批量写入时，把此参数关闭，或保持默认配置；使用Flink应用对流水进行计算和统计，结果一般字段较少，每条计算结果的数据量不大，如果开启批量写入，可以降低和数据库之间的网络交

overfit同步小助手 2023-03-30 03:05:01 0 收藏