大数据 - overfit.cn

rabbitMQ的学习

RabbitMQ 是一个消息中间件：它接受并转发消息。你可以把它当做一个快递站点，当你要发送一个包裹时，你把你的包裹放到快递站，快递员最终会把你的快递送到收件人那里，按照这种逻辑 RabbitMQ 是一个快递站，一个快递员帮你传递快件。RabbitMQ 与快递站的主要区别在于，它不处理快件而是接收，

overfit同步小助手 2024-02-26 08:03:49 0 收藏

解析：Eureka的工作原理

每个服务提供者都需要在启动时，配置一个Eureka Client，通过与Eureka Server建立长连接，将自身的服务元数据信息发送给Eureka Server。当一个服务提供者启动时，Eureka Client会向Eureka Server发送注册请求，并将该服务提供者的元数据信息一并发送过去

overfit同步小助手 2024-02-26 08:03:11 0 收藏

FlinkSql通用调优策略

使用DataGenerator 提前进行压测，了解数据的处理瓶颈、性能测试和消费能力开启minibatch："table.exec.mini-batch.enabled", "true"开启Local+Global 两阶段聚合："table.exec.mini-batch.enabled", "tr

overfit同步小助手 2024-02-26 06:03:46 0 收藏

毕业设计基于大数据人才岗位数据分析

这里是毕设分享系列，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据人才岗位数据分析毕业设计基于大数据人才岗位数据分析。

overfit同步小助手 2024-02-26 06:03:38 0 收藏

在Python中读写Kafka队列

在Python中读写Kafka队列通常使用库，这是一个非常流行的库，可以让你方便地与Kafka集群进行交互。以下是安装这个库以及基本使用方法的介绍。

overfit同步小助手 2024-02-26 05:03:54 0 收藏

HIVE核心优化方案

目录1.数据采样2.join优化3.Hive索引4.数据倾斜。

overfit同步小助手 2024-02-26 05:03:49 0 收藏

Flink 1.17教程：并行度设置&优先级

在Flink中，可以用不同的方法来设置并行度，它们的有效范围和优先级别也是不同的。

overfit同步小助手 2024-02-26 05:03:41 0 收藏

软件工程毕设分享(算法) 基于大数据的b站数据分析

本文主要运用Python的第三方库SnowNLP对弹幕内容进行情感分析，使用方法很简单，计算出的情感score表示语义积极的概率，越接近0情感表现越消极，越接近1情感表现越积极。从数据可视化中可以看到，播放量排名前三的分别是生活类、动画类、鬼畜类，让人诧异的是以动漫起家的B站，播放量最多的视频分类竟

overfit同步小助手 2024-02-26 05:03:13 0 收藏

SparkMLlib与数据处理实践

1.背景介绍1. 背景介绍Apache Spark是一个快速、通用的大规模数据处理引擎，它可以处理批量数据和流式数据，支持SQL查询和数据挖掘算法。Spark MLlib是Spark的一个子项目，专门为大规模机器学习任务提供了一套高性能的库。MLlib包含了许多常用的机器学习算法，如梯度下降、随机梯

overfit同步小助手 2024-02-26 04:03:45 0 收藏

python安装apache-flink报错

flink安装和报错解答

overfit同步小助手 2024-02-26 03:03:42 0 收藏

【rabbitmq】发布确认（五）

单个确认发布方式非常慢，与单个等待确认消息相比，先发布一批消息，然后一起确认可以极大地提高吞吐量，此方式缺点：当发生故障导致发布出现问题时，不知道是哪个消息出现了问题，必须将整个批处理保存在内存中，以记录重要的信息。后续的消息才能继续发布，waitForConfirms这个方法只有在消息被确认的时候

overfit同步小助手 2024-02-26 02:03:53 0 收藏

扩展学习|大数据，新的认识论和范式转变

本文探讨了大数据的可用性，再加上新的数据分析，如何挑战科学、社会科学和人文学科的既有认识论，并评估了它们在多大程度上引发了多学科的范式转变。特别是，它批判性地探索了宣称“理论终结”的新形式的经验主义，数据驱动而不是知识驱动科学的创造，以及数字人文科学和计算社会科学的发展，这些科学提出了截然不同的方式

overfit同步小助手 2024-02-26 02:03:49 0 收藏

Flink中的容错机制

如果出现故障，我们恢复到之前保存的状态，故障时正在处理的所有数据都需要重新处理；我们只需要让源（source）任务向数据源重新提交偏移量、请求重放数据就可以了(即重新将故障时的数据读入Flink)。当然这需要源任务可以把偏移量作为算子状态保存下来，而且外部数据源能够重置偏移量；

overfit同步小助手 2024-02-26 02:03:26 0 收藏

spark3使用hive zstd压缩格式总结

ZSTD（全称为Zstandard）是一种开源的无损数据压缩算法，其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式，本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC，RCFile，TextFile，JsonFile，Parquet，Squen

overfit同步小助手 2024-02-26 02:03:20 0 收藏

Chunjun纯钧(Flinkx)同步任务开发通用配置参数详解

Chunjun纯钧(Flinkx)是一款稳定、易用、高效、批流一体的数据集成框架，目前基于实时计算引擎Flink实现多种异构数据源之间的数据同步与计算，支持JSON模版配置任务，兼容FlinkSQL语法。本文对chunjun同步任务的配置文件进行详细的介绍和总结。

overfit同步小助手 2024-02-25 23:03:52 0 收藏

kafka教程

Topic（主题）是消息的逻辑分类或通道。它是Kafka中用于组织和存储消息的基本单元。一个Topic可以被看作是一个消息发布的地方，生产者将消息发布到一个特定的Topic，而消费者则订阅一个或多个Topic以接收消息。

overfit同步小助手 2024-02-25 23:03:33 0 收藏

13 | 云上大数据：云计算遇上大数据，为什么堪称天作之合？

数据是现代应用的核心，也是普遍的需求。云上大数据服务的出现和发展，让我们在云上存储、处理和查询大数据变得简单而高效，它也把云计算的计算存储分离特性，体现得淋漓尽致。所以它们两者呢，真的可以说是天作之合。云计算落地大数据的形式，既有拿来主义、消化吸收，也有推陈出新、自研改进。这也是我喜欢云的一点，它没

overfit同步小助手 2024-02-25 23:03:20 0 收藏

Kafka 之生产者（Producer）配置

Kafka Producer 是 Kafka 集群的发送消息的客户端，主要就是向某个 Topic 的某个分区发送一条消息。Partitioner 决定向哪个分区发送消息。用户指定 Key，默认的分区器会根据 Key 的哈希值来选择分区，如果没有指定 Key 就以轮询的方式选择分区。也可以自定义分区策

overfit同步小助手 2024-02-25 22:03:51 0 收藏

kafka的安装，用于数据库同步数据

如果说 Specified-Offset 策略要求你指定位移的绝对数值的话，那么 Shift-By-N 策略指定的就是位移的相对数值，即你给出要跳过的一段消息的距离即可。有时候你可能会碰到这样的场景：你修改了消费者程序代码，并重启了消费者，结果发现代码有问题，你需要回滚之前的代码变更，同时也要把位移

overfit同步小助手 2024-02-25 22:03:46 0 收藏

实验三-HBase数据库操作

第一步：首先登陆ssh，之前设置了无密码登陆，因此这里不需要密码；再切换目录至/usr/local/hadoop ；再启动hadoopssh localhostcd /usr/local/hadoop./sbin/start-dfs.sh输入命令jps，能看到NameNode,DataNode和Se

overfit同步小助手 2024-02-25 21:03:49 0 收藏