大数据 - overfit.cn

Kafka Stream实时流式计算

Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。Kafka Stream的特点如下：Kafka Stream提供了一个非常简单而轻量的Library，它可以非常方便地嵌入任意Java应用中，也可

overfit同步小助手 9 天前 0 收藏

毕设开源大数据电影数据分析与可视化系统（源码+论文）

🔥这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩毕业设计大数据电影数据分析与可视化系统（源

overfit同步小助手 9 天前 0 收藏

【HBase分布式数据库】第六章 HBase的JavaAPI（3-6）

任务目的了解pom.xml文件中添加依赖的方式掌握命名空间的API任务清单任务1：pom.xml文件中添加依赖任务2：命名空间的API。

overfit同步小助手 9 天前 0 收藏

构建基于大数据的决策支持系统：研究与实践

本文还有配套的精品资源，点击获取简介：大数据作为一种资源，正推动决策支持平台的发展，本研究详细探讨了构建这一平台的关键组成部分。介绍了大数据的概念、决策支持系统（DSS）的原理、平台架构、Hadoop生态系统、数据治理、实时分析、可视化与交互、云环境应用、安全与隐私等多个方面。案例研究展示了大

overfit同步小助手 9 天前 0 收藏

【大数据学习 | kafka】消费者的分区分配规则

上面我们提到过，消费者有的时候会少于或者多于分区的个数，那么如果消费者少了有的消费者要消费多个分区的数据，如果消费者多了，有的消费者就可能没有分区的数据消费。那么这个关系是如何分配的呢？现在我们知道kafka中存在一个coordinator可以管理这么一堆消费者，它可以帮助一个组内的所有消费者进行分

overfit同步小助手 9 天前 0 收藏

Zookeeper在CAP理论中是如何定位的？

一致性（Consistency）所有的读操作都能返回最新的写操作结果，即所有节点在执行完写操作后立即呈现一致的状态。可用性（Availability）每个请求无论是否最终成功或返回错误，都应该在合理的时间内得到回复。分区容错性（Partition tolerance）系统能够容忍网络分区导致的消息丢

overfit同步小助手 9 天前 0 收藏

通过Flink读写云原生数据仓库AnalyticDB PostgreSQL版（ADB PG）数据

本文介绍如何通过阿里云实时计算Flink版实时读写云原生数据仓库AnalyticDB PostgreSQL版数据。是一种大规模并行处理（MPP）数据仓库服务，可提供海量数据在线分析服务。是基于Apache Flink构建的⼀站式实时大数据分析平台，内置丰富上下游连接器，满足不同业务场景的需求，提供高

overfit同步小助手 9 天前 0 收藏

极速梳理Spark的四种分词工具

Spark是一套巡行效率很高，速度很快又能提供多种计算场景的框架，它将数据拉到内存里面，并基于RDD（弹性分布式数据集）进行运算，这就导致它内存效率很高很快。而在Spark框架下，有四种常用的中文分词工具，分别是：hanLP、ansj、jieba和fudannlp。以下是对于这四种工具

overfit同步小助手 9 天前 0 收藏

SpringCloud开发实战（三）：集成Eureka注册中心

Eureka 是一个基于 Java 的开源技术，最广为人知的是作为 Netflix 开发的云原生架构的一部分，它主要用于构建微服务架构中的服务发现。在微服务架构中，应用程序被拆分成一组小的服务，每个服务运行在自己的进程中，并通过轻量级通信（通常是HTTP或消息队列）互相通信。随着服务数量的增长，手动

overfit同步小助手 9 天前 0 收藏

HBase 的基本架构详解

HBase 是一个分布式的、面向列的数据库，构建在 HDFS（Hadoop Distributed File System）之上，提供高效的随机读写操作。为了全面理解 HBase 的基础架构，需要从逻辑架构、物理存储、组件之间的交互、数据管理和底层设计出发，结合源码进行深入剖析。

overfit同步小助手 9 天前 0 收藏

ubutu系统下Hadoop的下载与配置

希望这些大白话能帮到你，如果没有，那就当我没说过。

overfit同步小助手 9 天前 0 收藏

Hive SQL中判断内容包含情况的全面指南

原理如果现有的函数无法满足特定的包含内容判断需求，可以编写用户自定义函数（UDF）。例如，当需要使用复杂的自然语言处理规则或特定的业务逻辑来判断是否包含某些内容时。示例（以Python编写UDF为例）首先，编写一个Python函数来实现判断逻辑。例如，判断一个字符串是否包含另一个字符串，并且忽略大小

overfit同步小助手 9 天前 0 收藏

Spark 广播变量（Broadcast Variable）原理及源码分析

Spark 广播变量通过序列化、分块、缓存和分层传播的机制，大大减少了任务之间的数据传输开销，提高了性能。

overfit同步小助手 9 天前 0 收藏

基于科大讯飞星火大模型Spark 4.0 Ultra的微信聊天机器人搭建教程

目前，办公场景中，员工需要与不同的人交谈，而微信作为其中的桥梁。随着如今工作越来越繁重，面对不同的人进行交谈已经是应接不暇，急需一个AI聊天机器人来帮助人们从繁忙的聊天中解放出来。

overfit同步小助手 9 天前 0 收藏

六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程

HDFS 是一种高度分布式的文件系统，其专门为在大规模的集群环境之下存储和管理海量规模的数据而精心设计。它具备着极高的容错性、极为可靠的稳定性以及强大的可扩展性等显著特点，能够轻松处理 PB 级乃至更加庞大的数据量。HDFS 采用了主从架构的模式，主要是由 NameNode 和 DataNode 共

overfit同步小助手 9 天前 0 收藏

Kafka 的 Producer 如何实现幂等性

在数学中，幂等性是指一个操作执行多次与执行一次的效果相同。在分布式系统中，幂等性意味着对同一操作的多次重复执行不会产生额外的影响。对于 Kafka 的 Producer 来说，幂等性就是指发送同一条消息多次，Kafka 只会保存一份，不会出现重复消息。Kafka 的幂等性 Producer 为我们提

overfit同步小助手 9 天前 0 收藏

大数据生态守护：Hadoop的深度保护策略

此外，Hadoop平台本身的脆弱性、网络攻击的不断升级以及数据备份的复杂性等因素，都使得数据保护成为Hadoop生态中不可或缺的一环。此外，PIG、Hive、Mahout、HBase、Avro、Sqoop等工具各具特色，共同构成了Hadoop生态的多元化处理能力。保护拥有大规模数据的Hadoop环境

overfit同步小助手 9 天前 0 收藏

大数据-213 数据挖掘机器学习理论 - KMeans Python 实现距离计算函数质心函数聚类函数

我们需要定义一个两个长度相等的数组之间欧式距离计算函数，在不直接应用计算结果，只比较距离远近的情况下，我们可以用距离平方和代替距离进行比较，化简开平方运算，从而减少函数计算量。此外需要说明的是，涉及到距离计算的，一定要注意量纲的统一。在定义随机质心生成函数时，首先需要计算每列数值的范围，然后从该范围

overfit同步小助手 9 天前 0 收藏

【数据分析】Power BI的使用教程

Power BI使用教程

overfit同步小助手 9 天前 0 收藏

Kafka篇之清理或创建topic

kafka创建或清理topic

overfit同步小助手 9 天前 0 收藏

Kafka Stream实时流式计算

毕设开源大数据电影数据分析与可视化系统（源码+论文）

【HBase分布式数据库】第六章 HBase的JavaAPI（3-6）

构建基于大数据的决策支持系统：研究与实践

【大数据学习 | kafka】消费者的分区分配规则

Zookeeper在CAP理论中是如何定位的？

通过Flink读写云原生数据仓库AnalyticDB PostgreSQL版（ADB PG）数据

极速梳理Spark的四种分词工具

SpringCloud开发实战（三）：集成Eureka注册中心

HBase 的基本架构详解

ubutu系统下Hadoop的下载与配置

Hive SQL中判断内容包含情况的全面指南

Spark 广播变量（Broadcast Variable）原理及源码分析

基于科大讯飞星火大模型Spark 4.0 Ultra的微信聊天机器人搭建教程

六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程

Kafka 的 Producer 如何实现幂等性

大数据生态守护：Hadoop的深度保护策略

大数据-213 数据挖掘机器学习理论 - KMeans Python 实现距离计算函数质心函数聚类函数

【数据分析】Power BI的使用教程

Kafka篇之清理或创建topic

作者榜

资讯小助手

内容小助手

Deephub

奕凯