大数据 - overfit.cn

在eclipse运行MapReduce(Hadoop)程序的常见问题

主机名和端口在 hadoop/etc/hadoop/core-site.xml 可以看到 fs.defaultFS 的值为 hdfs://主机名:端口号。一般是在hdfs上的/user/root目录创建input文件夹，并把需要统计的文件放里面，而且如果存在output文件夹的话要先删掉该文件夹。2

overfit同步小助手 2023-12-20 00:03:45 0 收藏

基于Flink CDC实时同步PostgreSQL与Tidb【Flink SQL Client模式下亲测可行，详细教程】

只要这个flink作业是正常runnning，那么对source_table的任何修改都会同步到sink_table。注意这种是单向同步，source_table的变动（增/删/改）会同步到sink_table，但反过来sink_table的变动不会影响到source_table（不会触发sourc

overfit同步小助手 2023-12-20 00:03:38 0 收藏

使用Flink处理Kafka中的数据_题库子任务_Java语言实现

职业院校技能大赛，使用Flink处理Kafka中的数据_题库子任务_Java语言实现

overfit同步小助手 2023-12-19 23:03:51 0 收藏

Spark_SQL函数定义（定义UDF函数、使用窗口函数）

无论Hive还是SparkSQL分析处理数据时，往往需要使用函数，SparkSQL模块本身自带很多实现公共功能的函数，在pyspark.sql.functions中。SparkSQL与Hive一样支持定义函数:UDF和UDAF，尤其是UDF函数在实际项目中使用最为广泛。Hive中自定义函数有三种类型

overfit同步小助手 2023-12-19 23:03:48 0 收藏

Windows安装kafka

Windows启动kafka报错解决方式：输入行太长

overfit同步小助手 2023-12-19 22:03:37 0 收藏

虚拟机安装hadoop，hbase（单机伪集群模式）

工作中遇到了大数据方面的一些技术栈，没有退路可言，只能去学习掌握它，就像当初做爬虫一样（虽然很简单），在数据爆发的现在，传统的数据库mysql，oracle显然在处理大数据量级的数据时显得力不从心，所以有些特定的业务需要引进能够处理大数据量的数据库，hadoop提供了分布式文件系统（HDFS）来存储

overfit同步小助手 2023-12-19 21:04:07 0 收藏

Spark SQL 日期时间转换指南

通过使用to_date、to_timestamp、date_format和datediff等函数，可以轻松地在Spark SQL中处理日期和时间数据。上述代码中，我们首先创建了一个包含时间戳字符串的DataFrame，并通过之前的示例将其转换为日期和时间戳类型。在Spark SQL中，可以使用to_

overfit同步小助手 2023-12-19 16:03:40 0 收藏

ELK日志分析系统之（Filebeat 收集Nginx日志并写入 Kafka 缓存发送至Elasticsearch）

ELK企业级日志分析系统之（Filebeat 收集Nginx日志并写入 Kafka 缓存发送至Elasticsearch）

overfit同步小助手 2023-12-19 16:03:37 0 收藏

rabbitmq三节点下集群恢复模式及分区问题

rabbitmq的几种自动恢复机制目前看来都非常粗糙，依旧需要通过其他工具脚本辅助进行恢复，但是分区带来的问题却是致命的，各种数据不一致问题已经是特色，希望后续版本能有大的改进，如果有其他想法欢迎留言。

overfit同步小助手 2023-12-19 15:03:38 0 收藏

Kafka基础理论与常用命令详解（超详细）

本文介绍了Kafka的基本概念和常用命令，包括Kafka的架构、特点和应用场景，以及Topics、Producer、Consumer和Groups命令的使用方法和常用选项。通过学习本文，您可以了解Kafka的基本原理和使用方法，以及如何使用命令行工具管理和操作Kafka集群。Kafka是一个开源的分

overfit同步小助手 2023-12-19 14:03:31 0 收藏

第五节Hadoop学习案例——MapReduce案例（WordCount）

overfit同步小助手 2023-12-19 13:03:49 0 收藏

RabbitMQ - 消息堆积问题的最佳解决方案？惰性队列

对于传统的队列来讲，如果没有开启消息持久化，所有接收到的消息都是放在内存里面的，目的就是为了加快消息投递的速度，这也是 RabbitMQ 的一个很优势——响应速度快.但是他也带来了一个问题，RabbitMQ 设置了一个内存预警值（内存存储的上限，默认是 40%），如果在消息堆积的情况下，很容易就到达

overfit同步小助手 2023-12-19 11:03:19 0 收藏

java多线程之线程池

在执行一个异步任务或并发任务时，往往是通过直接new Thread()方法来创建新的线程，这样做弊端较多，更好的解决方案是合理地利用线程池，线程池的优势很明显，如下：降低系统资源消耗，通过重用已存在的线程，降低线程创建和销毁造成的消耗...

overfit同步小助手 2023-12-19 10:03:28 0 收藏

玩转大数据11：数据可视化与交互式分析

数据可视化与交互式分析是大数据领域中非常重要的方面，可以帮助我们更好地理解、分析和解释数据。在进行数据可视化与交互式分析时，需要注意以上提到的最佳实践、注意事项和其他方面，以便更好地实现数据可视化与交互式分析的目标和需求。

overfit同步小助手 2023-12-19 09:03:26 0 收藏

spring集成kafka并对消息进行监听

producers可以一步的并行向kafka发送消息，但是通常producer在发送完消息之后会得到一个响应，返回的是offset值或者发送过程中遇到的错误。在代码中如果需要同步发送，可以在每次发送之后使用get方法，因为producer.send方法返回一个Future类型的结果，Future的g

overfit同步小助手 2023-12-19 08:03:49 0 收藏

MapRecuce 词频统计案例

MapReduce词频统计案例

overfit同步小助手 2023-12-19 08:03:45 0 收藏

阿里 P7 三面凉凉，kafka Borker 日志持久化没答上来

在讲Kafka日志源码之前，我们要先对Kafka日志有一个大体的认识这也是阅读源码的关键，一步一步来前面我们聊到了Kafka的生产端的整体架构可以看到，我们每一个Topic都可以分为多个Partition，而每一个Partition对应着一个Log但这里会存在两个问题，如果我们的数据过大一个Log能

overfit同步小助手 2023-12-19 08:03:30 0 收藏

Kafka消息延迟和时序性详解（文末送书）

Kafka 消息延迟和时序性对于大多数实时数据流应用程序至关重要。本章将深入介绍这两个核心概念，它们是了解 Kafka 数据流处理的关键要素。Kafka 消息延迟是指消息从生产者发送到消息被消费者接收之间的时间差。这是一个关键的概念，因为它直接影响到数据流应用程序的实时性和性能。在理想情况下，消息应

overfit同步小助手 2023-12-19 08:03:17 0 收藏

Kafka与Spring Boot等应用框架的集成及消息驱动模型

在本文中，我们深入探讨了Kafka与Spring Boot等应用框架的集成方式以及Kafka支持的消息驱动模型。在集成方面，我们介绍了如何在Spring Boot项目中添加Kafka依赖，并配置了相应的属性以实现应用程序与Kafka集群的通信。然后，我们详细讲解了几种常见的消息驱动模型，包括发布-订

overfit同步小助手 2023-12-19 07:03:40 0 收藏

RabbitMQ快速入门（简单收发消息）

1.了解数据隔离2.RabbitMQ控制台收发信息3.SpringBoot整合RabbitMQ收发信息以上就是简单的消息收发，具体的编程化创建虚拟机，队列以及收发信息，我会在讲解交换机的文章中讲解。

overfit同步小助手 2023-12-19 07:03:20 0 收藏