大数据 - overfit.cn

大数据HCIE成神之路之数学（2）——线性代数

线性代数是一门被广泛运用于各工程技术领域的学科。用线性代数的相关概念和结论，可以极大地简化数据挖掘中相关公式的推导和表述。线性代数将复杂的问题简单化，让我们能够对问题进行高效地数学运算。线性代数是一个数学工具，它不仅提供了有助于操作数组的技术，还提供了像向量和矩阵这样的数据结构用来保存数字和规则，以

overfit同步小助手 2023-12-14 21:03:36 0 收藏

Kafka 学习：默认端口号 9092

在 Kafka 中，消息被组织成一个或多个主题（Topics），并通过生产者（Producers）发布到主题，然后由消费者（Consumers）订阅并处理这些消息。Kafka 的默认端口号是 9092，本文将介绍如何使用 Kafka，并提供相关的源代码示例。在 Kafka 中，消息被组织成一个或多个

overfit同步小助手 2023-12-14 21:03:33 0 收藏

ELK+kafka+filebeat企业内部日志分析系统

本文主要详细讲述了ELK+kafka+filebeat企业内部日志分析系统，如何操作以及解决配置过程中的相关问题

overfit同步小助手 2023-12-14 20:03:14 0 收藏

Flink（九）CEP

Flink CEP

overfit同步小助手 2023-12-14 18:03:46 0 收藏

最佳实践！ StreamPark 在顺网科技的生产实践, 如何支撑大规模 Flink 作业

本文主要介绍顺网科技在使用 Flink 计算引擎中遇到的一些挑战，基于 StreamPark 作为实时数据平台如何来解决这些问题，从而大规模支持公司的业务。

overfit同步小助手 2023-12-14 16:03:39 0 收藏

【计算机毕设】基于大数据的用户画像分析系统数据分析开题

Hi，大家好，今天做一个电商销售预测分析，这只是一个demo，尝试对电影数据进行分析，并可视化系统用户画像是指根据用户的属性、用户偏好、生活习惯、用户行为等信息而抽象出来的标签化用户模型。通俗说就是给用户打标签，而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易

overfit同步小助手 2023-12-14 13:03:50 0 收藏

【Kafka学习-3】Kafka命令

Kafka的命令都是基于bin目录下的脚本来使用的。

overfit同步小助手 2023-12-14 12:03:52 0 收藏

spark -- 数据计算框架

spark作为大数据组件中不可或缺的一大部分是我们学习和了解大数据的过程中必须要经历和学习的部分本人将自己当初学习大数据的一点点心得和体会作为笔记希望可以给同样在学习大数据同学提供一点点的帮助同时也希望可以得到大家的指正。

overfit同步小助手 2023-12-14 12:03:37 0 收藏

详解Kafka分区机制原理｜Kafka 系列二

Kafka 系列第二篇，详解分区机制原理。为了不错过更新，请大家将本号“设为星标”。点击上方“后端开发技术”，选择“设为星标” ，优质资源及时送达上一篇文章介绍了 Kafka 的基本概念和术语，里面有个概念是分区(Partition)。kafka 将一个Topic 中的消息分成多份，分别存储在不

overfit同步小助手 2023-12-14 12:03:23 0 收藏

【系统运维】Centos部署Haproxy+Keepalived+RabbitMQ高可用集群

overfit同步小助手 2023-12-14 11:03:22 0 收藏

Kafka 集群如何实现数据同步？

Kafka 是一个高吞吐的分布式消息系统，不但像传统消息队列（RaabitMQ、RocketMQ等）那样能够【异步处理、流量消峰、服务解耦】还能够把消息持久化到磁盘上，用于批量消费。除此之外由于 Kafka 被设计成分布式系统，吞吐量和可用性大大提高Kafka 角色kafka 客户端生产者（prod

overfit同步小助手 2023-12-14 09:03:54 0 收藏

Flink 有状态流式处理

做法就是没处理完一笔，更改完状态之后，就做一次快照（包含它处理的数据在队列中的位置和它处理到的位置以及当时的状态进行对比）【1】如下图，当我们从数据源获取数据的时候，其实我们已经开始有状态了，这个时候我们可以把任务处理的整个过程抽象成如下图中的一张表。我们要处理一个持续维护的状态时，最适合的方式就是

overfit同步小助手 2023-12-14 08:03:23 0 收藏

基于大数据的宠物领养系统设计与实现

首先，基于大数据的宠物领养管理系统可以收集和存储大量关于宠物领养过程的信息，以便更好地了解宠物领养流程，分析宠物领养申请人的需求，并根据申请人的需求提供更合理、更有效的领养解决方案。此外，基于大数据的宠物领养管理系统还可以实时监控宠物领养过程中的宠物状态，以便随时了解宠物的健康状况，以确保宠物的安全

overfit同步小助手 2023-12-14 07:03:41 0 收藏

Springboot实战14 消息驱动：如何使用 KafkaTemplate 集成 Kafka？

消息通信机制的整体工作流程如下图所示：消息通信机制示意图上图中位于流程中间的就是各种消息中间件，消息中间件一般提供了消息的发送客户端和接收客户端组件，这些客户端组件会嵌入业务服务中。消息的生产者负责产生消息，在实际业务中一般由业务系统充当生产者；而消息的消费者负责消费消息，在实际业务中一般是后台系统

overfit同步小助手 2023-12-14 04:03:49 0 收藏

skywalking操作手册

EntrySpan代表服务提供商。它也是服务器端的端点。作为一个APM系统，我们的目标是应用程序服务器。因此，几乎所有的服务和MQ消费者都是EntrySpan。LocalSpan 表示一种不涉及远程服务的普通 Java 方法。它既不是 MQ 生产者/消费者也不是服务（例如 HTTP 服务）提供者

overfit同步小助手 2023-12-14 04:03:28 0 收藏

kafka报错

启动Kafka出现The Cluster ID doesn’t match stored clusterId错误需要删除在kafka路径下面的logs里面的meta.properties，这是因为 cluster.id 不匹配。

overfit同步小助手 2023-12-14 02:03:44 0 收藏

【Python大数据笔记_day10_Hive调优及Hadoop进阶】

Hive调优及Hadoop进阶

overfit同步小助手 2023-12-14 01:03:26 0 收藏

Pandas读写Excel最全参数总结

pandas中的文件读写工具由一组read的函数（执行Input）和一组write的对象方法（执行Output）组成，本文总结最常用的三组读写工具的所有参数用法，read_excel()和DataFrame.to_excel()、read_csv()和DataFrame.to_csv()、read_

overfit同步小助手 2023-12-13 23:03:53 0 收藏

【面试】RabbitMQ面试题&答案整理

overfit同步小助手 2023-12-13 23:03:48 0 收藏

2.3 如何使用FlinkSQL读取&写入到JDBC(MySQL)

使用FlinkSQL读取&写入到JDBC(MySQL)

overfit同步小助手 2023-12-13 23:03:44 0 收藏