大数据 - overfit.cn

kafka

Kafka 是一个分布式的基于发布/订阅模式的消息队列（MQ，Message Queue），主要应用于大数据实时处理领域。

overfit同步小助手 2023-10-03 13:03:50 0 收藏

基于招聘网站的大数据专业相关招聘信息建模与可视化分析

首先是利用collections库的Counter函数对数据的重复值进行查看，这边主要是对岗位的url进行了统计查看，可以通过结果看出，每个url都只出现了一次，也就是说，每条数据都只出现了一次，并未出现重复值，因此，不用对数据进行去重操作。根据占比率前十的职位类别统计，对职位类别进行环状扇形图的呈

overfit同步小助手 2023-10-03 13:03:29 0 收藏

flink实现kafka、doris精准一次说明

overfit同步小助手 2023-10-03 12:03:54 0 收藏

hadoop 2.x和hadoop 3.x的比较

Hadoop3相对于Hadoop2在方面都得到了显著的提升。

overfit同步小助手 2023-10-03 11:03:52 0 收藏

RabbitMQ介绍

Channel 是在 connection 内部建立的逻辑连接，如果应用程序支持多线程，通常每个 thread 创建单独的 channel 进行通讯，AMQP method 包含了 channel id 帮助客户端和 message broker 识别 channel，所以 channel 之间是

overfit同步小助手 2023-10-03 11:03:42 0 收藏

EventDriven Microservices and RabbitMQ at Scale

2017年7月，来自Pivotal、Red Hat、Springer Nature等科技公司联合发布了宣布开源的RabbitMQ消息代理软件，它是一个基于AMQP协议的高性能、可靠、灵活的开源消息代理软件。可靠性： RabbitMQ提供多种级别的可靠性保证，包括持久化消息、镜像队列、事务支持、消息抖

overfit同步小助手 2023-10-03 08:04:05 0 收藏

2023_Spark_实验八：Scala高级特性实验

Scala的高级特性，泛型类，泛型函数，隐式转换函数，隐私参数，隐式类

overfit同步小助手 2023-10-03 08:03:50 0 收藏

Flink Checkpoint 详解

overfit同步小助手 2023-10-03 08:03:28 0 收藏

Kafka单节点部署

overfit同步小助手 2023-10-03 05:03:55 0 收藏

Kafka架构原理(超级详细)

许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。（1）每一个分区都是多个分段构成，每个LogSegment分段，包括了'一个'数据文件和'一个'索引文件, 它们的文件名都是以某一

overfit同步小助手 2023-10-03 04:03:53 0 收藏

【黑马头条之热点文章kafkaStream】

Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。Kafka Stream的特点如下：Kafka Stream提供了一个非常简单而轻量的Library，它可以非常方便地嵌入任意Java应用中，也可

overfit同步小助手 2023-10-03 04:03:46 0 收藏

kafka启用SASL认证后使用kafka-consumer-groups.sh查看消费组报错的问题

/bin/kafka-consumer-groups.sh --describe --bootstrap-server kafka的IP:kafka的端口--command-config config/consumer-group-ssl.properties --group test-group

overfit同步小助手 2023-10-03 04:03:40 0 收藏

云计算技术及应用选择题

A、软控分离B、集中控制C、开放接口D、南向接口正确答案： DA、控制平面B、数据平面C、管理平面D、以上都不是正确答案： BA、隔离B、兼容性C、硬件独立性D、封装正确答案： AA、UserB、ProjectC、RoleD、Domain正确答案： B。

overfit同步小助手 2023-10-03 03:03:54 0 收藏

保姆级 -- Zookeeper超详解

提供基于类似于文件系统的目录树方式的数据存储, 并且可以对树中的节点进行有效管理. 从而用来维护和监控你存储的数据的状态变化. 通过监控这些数据状态的变化，从而可以达到基于数据的集群管理. 在大数据生态系统里，很多组件的命名都是某种动物，比如 hadoop 就是大象, hive就是蜜蜂, 而 Zoo

overfit同步小助手 2023-10-03 03:03:22 0 收藏

Flink 学习八 Flink 容错机制 & checkpoint & savepoint

flink checkpoint savepoint 基础概念和使用

overfit同步小助手 2023-10-03 02:03:56 0 收藏

大数据与传统数据，到底有什么不同？

在当今世界，数据是一种极其重要的资源。随着技术的发展，传统数据及大数据已经成为当前数据领域中的两大重要类别。传统数据是基于结构化数据的，以结构性为核心，包括各种类型的文本、图像、视频等。而大数据则是基于多样化的数据形式，包括电子邮件、社交媒体、视频流、传感器数据等。

overfit同步小助手 2023-10-03 02:03:23 0 收藏

Hive 处理 13 位时间戳，得到年月日时分秒（北京时间）

Hive 处理 13 位时间戳，得到年月日时分秒（北京时间）使用 Hive 自带函数将 13位时间戳： 1682238448915 转成今天的时间（北京时间），格式样例：'2023-04-23 16:27:28'

overfit同步小助手 2023-10-03 01:04:00 0 收藏

kafka复习：（22）一个分区只能被消费者组中的一个消费者消费吗？

默认情况下，一个分区只能被消费者组中的一个消费者消费。但可以自定义PartitionAssignor来打破这个限制。分别运行生产者和消费者，可以看到相同消费者组里两个消费者可以消费study2023这个topic的同一个分区的数据。二、定义两个消费者，给其配置上述PartitionAssignor.

overfit同步小助手 2023-10-03 01:03:49 0 收藏

Kafka进阶应用——集群运维实践

Kafka是一个开源分布式消息系统，它由LinkedIn公司开发并开源，是Apache软件基金会下的顶级项目。Kafka最初起源于一个分布式日志收集系统，后来被用于在微服务架构中作为异步通信工具，主要解决数据实时同步、削峰填谷、故障转移等问题。2. 在使用过程中，由于Kafka作为一个分布式系统，它

overfit同步小助手 2023-10-03 00:03:58 0 收藏

python连接spark报错【已解决】

python链接spark报错

overfit同步小助手 2023-10-03 00:03:26 0 收藏