大数据 - overfit.cn

毕设项目大数据招聘租房可视化系统（源码+论文）

🔥这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩毕业设计大数据招聘租房可视化系统（源码+论

overfit同步小助手 2024-12-13 08:04:05 0 收藏

Python大数据可视化：基于spark的短视频推荐系统的设计与实现_django+spider

本文介绍了一个基于Django框架和Spark技术的短视频推荐系统的设计与实现。该系统使用Spark进行大数据处理和分析，实现了个性化推荐功能；使用Django框架进行后端开发，实现了用户注册、登录、修改个人信息等基础功能；使用HTML、CSS、JavaScript等技术进行前端开发，实现了良好的用

overfit同步小助手 2024-12-13 08:03:43 0 收藏

大数据新视界 -- Hive 元数据管理工具与实践（下）（28 / 30）

本文深度聚焦 Hive 元数据管理工具与前沿实践，以创新视角结合多元案例，全面剖析工具特性、应用诀窍与优化路径，为大数据从业者呈献极具价值的实操指南与技术启示，引领元数据管理新潮流。

overfit同步小助手 2024-12-13 08:03:40 0 收藏

flink cdc mysql pipeline connector参数scan.startup.mode解读

在 Flink CDC 中，参数用于指定启动时从哪个位置开始读取数据。initial：这是默认的启动模式。当你首次启动 CDC 任务时，它会从最早的可用 binlog 位置开始读取数据，并执行一个初始快照，然后继续读取最新的 binlog。：如果你希望 CDC 在每次启动时从最新的 binlog 位

overfit同步小助手 2024-12-13 06:03:31 0 收藏

RabbitMQ延迟消息的实现

在一些业务中，可以用到延迟消息，比如我们在成功下单一个商品后，需要立即付款，为了避免商品库存一直被占有，我们会给商品设置一个支付时间，如果在这段时间没有支付成功，就会恢复库存，删除订单，对于订单支付的超时删除我们是通过延迟消息来实现的，让消费者在支付超时之后查询用户是否支付，如果支付成功直接返回，如

overfit同步小助手 2024-12-13 05:03:25 0 收藏

Rabbitmq 镜像队列

RabbitMQ 的镜像队列集群（Mirrored Queues Cluster）是实现高可用性的一种模式，它通过在集群中的多个节点之间复制队列，确保消息在集群的某些节点宕机时不会丢失，并且队列仍然可以正常工作。在 Spring Boot 项目中配置 RabbitMQ 镜像队列（Mirrored Q

overfit同步小助手 2024-12-13 02:03:35 0 收藏

随笔20241126 Kafka 消费者的自动提交与手动提交偏移量详解

Kafka 消费者的偏移量提交是保障数据消费准确性的重要环节。自动提交通过后台定期提交偏移量，简化了开发者的工作，但在一些情况下会导致消息的重复消费。手动提交则为开发者提供了更精确的控制，能够确保数据在被正确处理后才提交偏移量，适用于对一致性要求高的业务场景。根据业务需求，合理选择偏移量提交方式，可

overfit同步小助手 2024-12-13 02:03:19 0 收藏

大数据智能客服系统完整研究与设计项目

本文还有配套的精品资源，点击获取简介：在数字化时代背景下，本报告详细探讨了大数据与智能客服系统结合的重要性，并展示了如何利用大数据技术构建高效、智能的客服系统，以提高运营效率和客户满意度。报告分析了智能客服系统中的大数据应用，包括数据收集、处理、分析，并阐述了系统的架构设计、实现、案例分析以及

overfit同步小助手 2024-12-13 00:03:48 0 收藏

Flink四大基石之CheckPoint(检查点) 的使用详解

在大数据流式处理领域，Apache Flink 凭借其卓越的性能和强大的功能占据重要地位。而理解 Flink 中的 Checkpoint（检查点）、重启策略以及 SavePoint（保存点）这些关键概念，对于保障流处理任务的稳定性、容错性以及可维护性至关重要。本文将深入剖析它们的原理、用法，并结合实

overfit同步小助手 2024-12-13 00:03:41 0 收藏

Kafka一些常用的命令行操作【包含主题命令、生产者和消费者命令】

Kafka一些常用的命令行操作【包含主题命令、生产者和消费者命令】：kafka-topics.sh、kafka-console-producer.sh、kafka-console-consumer.sh

overfit同步小助手 2024-12-12 22:03:44 0 收藏

kafka数据在服务端时怎么写入的

接着上篇，我们来聊聊kafka数据在服务端怎么写入的。

overfit同步小助手 2024-12-12 21:03:39 0 收藏

面向非结构化文本的信息抽取与NLPIR大数据语义智能分析平台

从海量文本信息中获取关键信息是一项重要需求，信息抽取任务通常可由关系集合是否给定分为封闭信息抽取和开放信息抽取两大类。其中，封闭信息抽取又根据实体对是否给定分为关系抽取（分类）和实体关系联合抽取两类。NLPIR平台提供一键式操作，集成各种文本挖掘功能，在专业性要求不高的情况下推荐使用。

overfit同步小助手 2024-12-12 20:03:43 0 收藏

Hadoop 完全分布式部署

用于配置 YARN 的相关参数，如 ResourceManager 的地址、NodeManager 的资源分配等。

overfit同步小助手 2024-12-12 20:03:31 0 收藏

Hadoop搭建（概述及环境搭建）详细版

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要结局，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念 —Hadoop生态圈。NameNode（nn）：存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及

overfit同步小助手 2024-12-12 17:03:44 0 收藏

SparkMD5 使用教程

SparkMD5 使用教程项目地址:https://gitcode.com/gh_mirrors/js/js-spark-md5项目介绍SparkMD5 是一个快速的 MD5 算法实现，基于 JKM md5 库，是当前最快的 MD5 算法之一。该库特别适合浏览器环境使用，尽管在 Node.js 环境

overfit同步小助手 2024-12-12 15:04:07 0 收藏

Spark-Parquet数据处理实战课程

本文还有配套的精品资源，点击获取简介：Apache Spark的 Spark-Parquet 框架专注于将TSV数据转换为列式存储的Parquet文件格式，提升大数据分析的读写性能和空间效率。该项目介绍了Spark SQL的数据处理能力，包括使用DataFrame/Dataset API

overfit同步小助手 2024-12-12 15:03:57 0 收藏

【Pyspark-驯化】一文搞懂Pyspark中过滤数据filter和when函数的使用技巧

在PySpark中，when和filter是两个非常有用的函数，它们用于在DataFrame中进行条件筛选和数据转换。when通常与select和withColumn一起使用，用于根据条件创建新的列或转换数据。filter则用于根据条件筛选出满足特定条件的行。PySpark中的when和filter

overfit同步小助手 2024-12-12 14:04:35 0 收藏

Hadoop 集群搭建与配置：从入门到精通

搭建和配置 Hadoop 集群虽然步骤较多，但只要按照本文的步骤细心操作，就能够成功搭建起自己的 Hadoop 集群。这为后续的大数据处理和分析工作奠定了坚实的基础，开启了大数据之旅的重要一步。随着对 Hadoop 使用的深入，还可以根据实际需求进一步优化集群配置，提高集群性能。

overfit同步小助手 2024-12-12 14:04:28 0 收藏

RabbitMQ自动发送消息工具(自动化测试RabbitMQ)

该软件是一个基于 C# 的 RabbitMQ 消息生产程序。它集成了 RabbitMQ 连接配置、消息自动生成配置以及日志记录功能，能够按照预设的时间间隔和总次数自动发送 RabbitMQ 消息。消息内容支持多种随机生成类型，包括日期、序列号、Mac 地址、整数和浮点数。此外，程序还提供了实时日志查

overfit同步小助手 2024-12-12 12:03:27 0 收藏

大数据-241 离线数仓 - 电商核心交易业务数据表结构订单、产品、分类、店铺、支付表

电商平台通过大数据技术进行数据的实时采集、处理和分析，从而优化核心交易环节，提高转化率和用户满意度。以下是几个大数据在电商核心交易中的关键应用：精准推荐：基于用户的浏览、加购物车、历史购买等行为数据，通过机器学习和数据挖掘算法，电商平台可以为用户推荐其可能感兴趣的商品。精准推荐不仅提升了用户体验，也

overfit同步小助手 2024-12-12 12:03:10 0 收藏