大数据 - overfit.cn

Apache Kafka是一个分布式的流处理平台。它最初是由LinkedIn开发并开源的，现在已经成为Apache软件基金会旗下的顶级项目之一。Kafka主要用于实时流数据的高吞吐量传输、存储和处理，例如日志收集、流式的ETL以及实时的Web日志等。Apache Spark是一个用于大规模数据处理的

overfit同步小助手 2023-08-05 07:04:12 0 收藏

kafka查看消息两种方式（命令行和软件）

①找到kafka安装文件夹②执行命令。

overfit同步小助手 2023-08-05 07:04:01 0 收藏

大数据之Kerberos认证

Kerberos 是一个网络身份验证协议，用于在计算机网络中进行身份验证和授权。它提供了一种安全的方式，允许用户在不安全的网络上进行身份验证，并获取访问网络资源的权限。

overfit同步小助手 2023-08-05 05:04:18 0 收藏

rabbitmq消息确认机制

默认是ack，consumer只要拿到消息就会自动确认，服务端就会删除queue中的消息，如果业务出现问题只有部分消息签收成功，剩余未签收的消息也会删除，为了能保存消息，需要设置为客户端手动确认签收。如果exchange有消息没有成功发送至queue，就会执行RuturnCallback，例：rou

overfit同步小助手 2023-08-05 05:04:14 0 收藏

数据之海 — 探索大数据的无尽可能

在信息爆炸的时代，大数据已经成为当今社会的瑰宝，而数据科学的发展为我们揭开了一个神秘而广阔的世界 —— 数据之海。本文将带领读者踏上一段奇妙的探索之旅，深入了解大数据的定义、应用领域以及对未来的巨大影响。我们将揭示数据之海中隐藏的宝藏，并通过精心设计的实例演示，帮助新手更好地理解和学习数据科学的精髓

overfit同步小助手 2023-08-05 04:03:44 0 收藏

azkaban介绍

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的key:value对的方式，通过配置中的dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于

overfit同步小助手 2023-08-05 02:04:00 0 收藏

Spring Boot如何实现分布式消息队列

在分布式系统中，消息队列是非常重要的一部分，可以帮助开发人员实现异步处理、解耦系统、提高系统可靠性等。本文介绍了使用 RabbitMQ 实现分布式消息队列的示例代码。在实际使用中，需要根据具体场景选择合适的工具和方案，并注意消息的传输性能和可靠性，确保系统的可靠性和性能。

overfit同步小助手 2023-08-05 01:04:28 0 收藏

spark学习之maven导入依赖的一些问题

maven版本过高会无法导入部分scala的依赖，但也不必担心我们换一个版本即可，我这里用的maven仓库版本是3.8.6差不多是最新版的了（现在最新版本的是4.0了），刚开始导入依赖会出现很多问题，maven提示下载好了，但是依赖并没有导入进来导致jar还是不可用，所以这时候我们应该改变versi

overfit同步小助手 2023-08-05 01:04:20 0 收藏

RabbitMQ ---- Hello World

本节使用 Java 编写两个程序。发送单个消息的生产者和接收消息并打印出来的消费者。

overfit同步小助手 2023-08-05 01:04:16 0 收藏

Windows 环境下 Docker 安装伪分布式 Hadoop

将时区文件链接到本地时间文件上，以便系统能够正确地显示当前时间，防止系统重启后时区改变。输入下面命令可以看到时间和咱们时间不一样，需要同步一下不然以后可能会遇到一些问题。设置 ssh 开机自启，找到并打开文件/root/.bashrc。配置容器内的 root 用户密码，该密码可用于远程登录。我这里选

overfit同步小助手 2023-08-05 01:03:57 0 收藏

Flink CDC实时同步PG数据库

Flink CDC同步PG数据库全流程

overfit同步小助手 2023-08-05 00:04:18 0 收藏

SparkUI超详细解释（2）——Stages

推测的原因是这个stage对应的是以下面的代码，上下两个shuffle的key相同又有一次union all，所以可以放在一个stage中，虽然task数量是4000，但是上面的shuffle数据是分在2000个task中，下面的是另一个2000task中，并不会两者合在一起hash到4000个ta

overfit同步小助手 2023-08-05 00:04:11 0 收藏

1分钟理解Flink中Watermark机制

hive设置本地执行方式

制造业怎么应用大数据？_光点科技

【Docker晋升记】No.1--- Docker工具核心组件构成（镜像、容器、仓库）及性能属性

【2023计算机考研】初试数据结构的院校汇总

Flink web UI配置账号密码，权限控制

巨量千川不同阶段人群定向策略使用技巧汇总

三台异构服务器搭建hadoop HA集群史上最详细方案（HDFS+YARN）

基于Kafka和Spark实现实时计算系统