大数据 - overfit.cn

当事件流流进 Partition 时会判断新事件流的WM是否大于当前的Partition WM，当大于时就更新 Partition 的时间戳WM为新流入的WM（取最大值），如下1->2象限Partition WM的变化。同时，如下 Task 也维护了一个全局的 WM 表示事件时钟，该值取分区中最小的

overfit同步小助手 2024-01-04 09:03:11 0 收藏

解决hive建表中文乱码问题

当hive建表字段注释中出现中文乱码时，可能是因为字符集编码不匹配所导致的。我们可以在建表语句中指定字符集编码来解决这个问题。参数，来指定字符集编码为 UTF-8。参数，来指定字符集编码为 UTF-8。这个参数可用于指定各种 CLI 输出数据的字符集编码，例如控制台输出、日志和报告等。需要注意的是，

overfit同步小助手 2024-01-04 08:03:33 0 收藏

kafka支持外网访问

listeners 修改为0.0.0.0 监控所有网卡，advertised.listeners 设置为外网ip,具体如下。advertised.listeners=PLAINTEXT://外网映射ip:9092。2.这个时候需要修改kafka的config中的server.properties中的

overfit同步小助手 2024-01-04 07:03:33 0 收藏

【RabbitMQ高级消息可靠性、高可用、延时、消息堆积问题】

修改publisher服务的单元测试类：@Slf4j@Autowired@Test//设置生产者消息确认机制publish-confirm的回调方法@Overrideif(ack){log.info("消息发送到交换机成功，消息ID：{}", correlationData.getId

overfit同步小助手 2024-01-04 05:03:41 0 收藏

hive怎么更新数据

使用INSERT OVERWRITE语句时，首先需要创建一个临时表，将需要更新的数据插入到临时表中，然后使用INSERT OVERWRITE将临时表的数据覆盖到原始表中。使用哪种方法取决于你的需求和数据更新的逻辑。请注意，在Hive中不能直接更新单个记录，而是通过覆盖或插入来更新整个表或部分数据。要

overfit同步小助手 2024-01-04 03:03:46 0 收藏

Spark搭建

overfit同步小助手 2024-01-04 03:03:29 0 收藏

Hadoop Single Node Cluster的安装

在本篇文章中将介绍hadoop single node cluster的完整安装过程以及运行hadoop

overfit同步小助手 2024-01-04 02:03:52 0 收藏

kafka学习笔记（二）-架构分析

一个partition中包含多个**segment**。一个segment是物理存储消息的最小单元，每个segment包含一定量的消息数据。配置文件中`log.segment.bytes`就定义了segment文件的最大值。segment文件的文件名，是根据下一条消息的偏移量命名的，从而实现了消息的

overfit同步小助手 2024-01-04 00:03:37 0 收藏

结合案例详细说明Spark的部分调优手段

当谈到优化 Apache Spark 应用程序时，有一些更加详细和具体的优化策略和技术，可以帮助提高性能并最大化集群资源利用。coalescecachepersistbucketBy这些优化方法需要结合具体的应用场景和需求来实施。根据数据特点、集群配置和任务类型，综合使用这些方法可以显著提高 Spa

overfit同步小助手 2024-01-03 23:03:42 0 收藏

学会大数据基础，一篇就够了

本文主要用于大数据基础期末考试，其内容包括Hadoop、hdfs、hbase

overfit同步小助手 2024-01-03 23:03:16 0 收藏

kafka高吞吐、低延时、高性能的实现原理

Kafka是大数据领域无处不在的消息中间件，目前广泛使用在企业内部的实时数据管道，并帮助企业构建自己的流计算应用程序。Kafka虽然是基于磁盘做的数据存储，但却具有高性能、高吞吐、低延时的特点，其吞吐量动辄几万、几十上百万，这其中的原由值得我们一探究竟，让我们一起掌握Kafka各种精巧的设计。

overfit同步小助手 2024-01-03 21:03:26 0 收藏

Windows详细安装和彻底删除RabbitMQ图文流程

Windows下RabbitMQ安装和彻底删除

overfit同步小助手 2024-01-03 19:03:45 0 收藏

谈谈Nacos跟Eureka的区别

Eureka和Nacos都是服务注册与发现的组件，都支持服务注册和服务拉取，都支持服务提供者心跳方式做健康检测，Spring Cloud 封装了 Netflix 公司开发的 Eureka 模块来实现服务治理，在传统的rpc远程调用框架中，管理每个服务与服务之间依赖关系比较复杂，管理比较复杂，所以需

overfit同步小助手 2024-01-03 19:03:40 0 收藏

Spark中使用scala完成数据抽取任务 -- 总结

在 CentOS 上使用 Docker 运行 RabbitMQ

Flink 内容分享(十二)：Flink在金融行业的应用

spark-submit 任务提交指定类名错误解决：Error: Failed to load class

大数据 DataX 详细安装教程

hiveserver负载均衡配置

zookeeper和nacos区别是什么，注册中心用zookeeper还是nacos

Flink Watermark和时间语义