大数据 - overfit.cn

新闻聚类和新闻分类hadoop+spark（燕山大学大数据三级项目）

由于上传到csdn结构比较混乱，可以进我的主页查看相应的资源，可以下载【免费】新闻聚类+新闻分类（hadoop+spark+scala）资源-CSDN文库AbstractThis project aims at using Bayesian classification algorithm and

overfit同步小助手 2024-07-03 07:03:51 0 收藏

spark sql 的join调优

spark sql的join调优

overfit同步小助手 2024-07-03 06:03:50 0 收藏

docker-compose在虚拟机上搭建zookeeper+kafka3.0.0集群

以docker-compose的方式搭建zookeeper+kafka3的集群，比起用docker命令的方式更加简单，还能保留配置信息。不会docker-compose没关系，按照我下面的操作步骤即可。集群的结构是三个zookeeper节点加上三个kafka节点，zookeeper镜像的版本是3.8

overfit同步小助手 2024-07-03 06:03:44 0 收藏

【RabbitMQ】初识 RabbitMQ

RabbitMQ 是目前应用相当广泛的消息中间件（其他同类的消息处理中间件有 ActiveMQ、Kafka 等）。在企业级应用、微服务应用中，RabbitMQ 担当着十分重要的角色。例如，在业务服务模块中解耦、异步通信、高并发限流、超时业务、数据延迟处理等都可以使用 RabbitMQ。

overfit同步小助手 2024-07-03 06:03:26 0 收藏

Java17 --- RabbitMQ之常规使用

publisher-confirm-type: correlated #交换机确认。acknowledge-mode: manual #手动确认。acknowledge-mode: manual #手动确认。publisher-returns: true #队列确认。prefetch: 1 #设置每

overfit同步小助手 2024-07-03 05:03:52 0 收藏

大数据实验四MapReduce初级编程实践----代码

现在有多个输入文件，每个文件中的每行内容均为一个整数。要求读取所有文件中的整数，进行升序排序后，输出到一个新的文件中，输出的数据格式为每行两个整数，第一个数字为第二个整数的排序位次，第二个整数为原待排列的整数。下面是输入文件和输出文件的一个样例供参考。对于两个输入文件，即文件A和文件B，编写MapR

overfit同步小助手 2024-07-03 05:03:24 0 收藏

Kafka 如何保证数据可靠

对头，所以这就涉及到一开始分区的副本的leader 和follower 之间通信同步数据的问题，假设producer 发送一条消息到topiA 的partition-0，它有三个副本，我们要保证数据可靠肯定要确保老大leader把数据拿到手了，告诉了其他的副本兄弟之后，然后给producer 发送一

overfit同步小助手 2024-07-03 04:03:49 0 收藏

【Hive SQL 每日一题】统计指定范围内的有效下单用户

本题制作参考牛客网进阶题目 ——

overfit同步小助手 2024-07-03 04:03:36 0 收藏

中岸公考：大数据专业报考公务员有哪些职位

因此，对于大数据专业的毕业生来说，报考公务员需要充分了解职位要求和自身条件，做好充分的准备和规划。总之，大数据专业报考公务员是一个不错的选择，但需要根据自身情况来选择适合自己的职位和发展方向。首先，这些职位通常要求较高的政治素养和综合能力，需要考生具备一定的政治理论基础和综合素质。对于大数据专业的毕

overfit同步小助手 2024-07-03 03:03:45 0 收藏

Hadoop生态简介，Hive、Spark、HBase等

Hadoop生态全景介绍，Spark、Hive、HBase等

overfit同步小助手 2024-07-03 02:03:48 0 收藏

虚拟机配置（hadoop）前置准备

安装集群化软件，需要有多台Linux服务器（至少三台）。1.首先创建一台CentOS7系统的Linux虚拟机，作为基础虚拟机2.在VMware中新建文件夹，命名为：hadoop集群3.克隆三台虚拟机并且命名为hadoop1、hadoop2、hadoop3、内存分别设置为4GB,2GB,2GB.

overfit同步小助手 2024-07-03 01:03:43 0 收藏

SpringBoot 整合 Kafka 实现千万级数据异步处理

在之前的文章中，我们详细的介绍了的架构模型，在集群环境中，可以通过设置分区数来加快数据的消费速度。光知道理论可不行，我们得真真切切的实践起来才行！下面，我将结合生产环境的真实案例，以SpringBoot技术框架为基础，向大家介绍的使用以及如何实现数据高吞吐！

overfit同步小助手 2024-07-03 00:03:50 0 收藏

51.Go操作kafka示例（kafka-go库）

之前已经介绍过一个操作kafka的go库了，28.windows安装kafka，Go操作kafka示例（sarama库），但是这个库比较老了，当前比较流行的库是，所以本次我们就使用一下它。我们在GitHub直接输入kafka并带上language标签为Go时，可以可以看到当前库是最流行的。首先启动k

overfit同步小助手 2024-07-02 22:03:34 0 收藏

Kafka小白：从下载到运行简单示例

本文针对小白快速入门，不涉及过多Kafka概念，只讲解如何实操（不详细解释代码）。只要按照步骤进行，就能运行Kafka。提供的简单示例使用Kafka默认配置文件，不需要修改配置文件，过程十分简单。读者可以自行学习使用自己的配置，如配置集群等。演示操作系统：ubuntu（centos操作类似）前置环境

overfit同步小助手 2024-07-02 22:03:27 0 收藏

详解 Flink Table API 和 Flink SQL 之函数

UDF 显著地扩展了查询的表达能力，可以解决一些系统内置函数无法解决的需求。使用步骤为：自定义 UDF 函数类继承 UserDefinedFunction 抽象类；创建 UDF 实例并在环境中调用 registerFunction() 方法注册；在 Table API 或 SQL 中使用。

overfit同步小助手 2024-07-02 22:03:18 0 收藏

创新案例｜昆曲DTC创新，用大数据和社群营销重塑传统演出商业模式

今天，我们正处在科技与人文的十字路口，“跨界”已然成为我们创新的关键变量。如何把艺术与商业结合，将商业的元素渗透到艺术的肌体里面，使艺术通过商业的手段恢复活力，构造出一种新型的商业模式，这是艺术界、学术界和商业界共同关注的话题？

overfit同步小助手 2024-07-02 21:03:46 0 收藏

java操作RabbitMQ

Type: 队列的类型。Classic主队列（传统队列） quorum从队列（适用于分布式消息队列） Stream自3.9.0版本开始引入的一种新的数据队列类型。在上图中TO queue 设置绑定的队列。Arguments ：置一些其它参数如： TTL 消息的超时时长。队列的最大消息数等。Int

overfit同步小助手 2024-07-02 19:03:44 0 收藏

【大数据复习】第11,12,13,14章

3.一次BSP(Bulk Synchronous Parallel Computing Model,又称“大同步”模型)计算过程包括一次全局超步(所谓的超步就是计算中的一次迭代)。10.流计算可应用在多个场景中,如实时业务分析,流计算带来的实时性特点,可以大大增加实时数据的价值,为业务分析带来质的提

overfit同步小助手 2024-07-02 18:03:41 0 收藏

Spark 中的分桶分化

是 Spark 和 Hive 中用于优化任务性能的一种技术。在分桶桶（）中确定数据分区并防止数据混洗。根据一个或多个分桶列的值，将数据分配给预定义数量的桶。

overfit同步小助手 2024-07-02 18:03:16 0 收藏

大数据社交网络舆情监测与分析系统

overfit同步小助手 2024-07-02 17:03:37 0 收藏