大数据 - overfit.cn

「Kafka」Kafka消息可靠性和重复消费问题（五）

在 Kafka 中，实现消息的和是保证数据一致性和系统稳定性的关键。Kafka 提供了多种机制来实现这两个目标。

overfit同步小助手 2024-10-15 00:03:19 0 收藏

Kafka--高吞吐量消息中间件

Kafka保证一个Partiton内的消息的有序性(分区间数据是无序的，如果对数据的顺序有要求，应将在创建主题时将分区数partitions设置为1)1.Kafka通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB级别以上的消息存储也能够保持长时间的稳定性能·创建topic名为wa

overfit同步小助手 2024-10-14 23:03:42 0 收藏

大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道与 Cube 优化

Apache Kylin 是一个开源的分布式分析引擎，专注于提供大数据的实时OLAP（在线分析处理）能力。Cube（立方体）是 Apache Kylin 的核心概念之一，通过预计算大规模数据的多维数据集合，加速复杂的 SQL 查询。Kylin Cube 查询与优化的关键在于利用预计算和裁剪技术最大化

overfit同步小助手 2024-10-14 22:03:39 0 收藏

分布式理论+ZooKeeper相关概念总结

即牺牲数据的一致性来满足系统的高可用性，系统中一部分数据不可用或者不一致时，仍需要保持系统整体“主要可用”。，其设计目标是将复杂且容易出错的分布式一致性服务封装起来，构成可靠的原语集提供给用户使用，如：数据发布/订阅、负载均衡、Master选举、集群管理、分布式协调/通知、分布式锁、分布式队列。是为

overfit同步小助手 2024-10-14 21:03:46 0 收藏

大数据与人工智能关联性辨析

在我认为，大数据的概念更多的是围绕数据来说的，是一整个数据处理的解决方案，偏重于数据体现的价值。如果数据的收集(衍生到线下)、量化问题没有解决，这里是线下的数据线上化、可计算化，那么人工智能这东西就无从谈起，要么也只是小范围的应用而已，远不能够达到普及的水平。大数据是基于海量数据进行分析从而发现一些

overfit同步小助手 2024-10-14 21:03:38 0 收藏

SparkRDD数据广播变量：broadcast

《SparkRDD数据广播变量：broadcast》1. 背景介绍1.1 问题的由来在分布式计算系统中，数据传输成本往往成为系统性能的瓶颈。Spark作为一款流行的分布式计算框架，为了提高数据传输效率，引入了数据广播（

overfit同步小助手 2024-10-14 21:03:32 0 收藏

EUREKA：通过编码大语言模型实现人类级别的奖励设计

24年4月来自Nvidia、UPenn、Caltech 和 UT Austin 的论文“EUREKA: Human-Level Reward Design Via Coding Large Language Models”。

overfit同步小助手 2024-10-14 20:03:55 0 收藏

【Kafka源码走读】消息生产者与服务端的连接过程

kafka生产者连接服务端的源码走读过程

overfit同步小助手 2024-10-14 19:03:48 0 收藏

Hive UDF自定义函数原理与代码实例讲解

Hive UDF自定义函数原理与代码实例讲解作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着大数据时代的到来，

overfit同步小助手 2024-10-14 19:03:44 0 收藏

尚硅谷大数据技术-Kafka视频教程-笔记01【Kafka 入门】

overfit同步小助手 2024-10-14 19:03:38 0 收藏

Mini-Flink：轻量级的Flink学习工具箱

Mini-Flink：轻量级的Flink学习工具箱 mini-flink项目地址:https://gitcode.com/gh_mirrors/mi/mini-flink 项目介绍Mini-Flink 是一个简化版的 Apache Flink 实现，旨在为初学者提供一个低门槛的学习环境。该项目由co

overfit同步小助手 2024-10-14 18:04:27 0 收藏

毕设成品大数据B站数据分析可视化系统

🔥这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩毕业设计大数据B站数据分析可视化系统🥇学

overfit同步小助手 2024-10-14 18:04:23 0 收藏

星辰计划04-深入理解kafka的消息存储和索引设计

深入理解kafka的消息存储和索引设计

overfit同步小助手 2024-10-14 18:03:57 0 收藏

HBase初探笔记

HBase初步了解笔记

overfit同步小助手 2024-10-14 17:03:39 0 收藏

调用RabbitMQ工具类Sender在Controller中完成消息发送

hi() 和 hello1() 方法使用第一个 send()，通过默认交换器发送消息，直接使用路由键进行简单路由。hello2() 方法使用第二个 send()，通过自定义交换器和路由键发送消息，支持更加灵活的消息路由。由此我们可以知道，

overfit同步小助手 2024-10-14 14:03:48 0 收藏

注册中心Eureka

Eureka是Netflix开发的基于REST的服务发现框架,主要用于服务注册,管理，负载均衡和服务故障转移.官方声明在Eureka2.0版本停止维护,不建议使用.但是Eureka是SpringCloud服务注册/发现的默认实现,所以目前还是有很多公司在使用.Eureka 是一个注册中心主要分为两部

overfit同步小助手 2024-10-14 13:06:32 0 收藏

Hadoop的安装和使用

Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）是Hadoop项目的两大核心之一，是针对谷歌文件系统（Google File System，GFS）的开源实现。兼容廉价的硬件设备。流数据读写。大数据集。简单的文件模型。强大的跨平台兼容性。

overfit同步小助手 2024-10-14 12:03:35 0 收藏

大数据-163 Apache Kylin 全量增量Cube的构建手动触发合并 JDBC 操作 Scala

要将数据以可视化方式展示出来，需要使用Kylin的JDBC方式连接执行SQL，获取Kylin的执行结果使用Kylin的JDBC与JDBC操作MySQL一致。选择要合并的 Cube 和 Segments：进入 Kylin Web UI，选择你要操作的 Cube，进入该 Cube 的详情页面。在“Se

overfit同步小助手 2024-10-14 12:03:32 0 收藏

hadoop集群部署上后，在服务器中运行hadoop自带的jar包中的实例报错

HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}（将这一串红字用得到的classpath代替）

overfit同步小助手 2024-10-14 11:03:38 0 收藏

【毕业设计】2025年大数据专业毕业设计选题指南精选推荐

大数据专业毕业设计选题合集涵盖了管理系统、小程序、深度学习、机器学习、算法、人工智能、大数据、网络安全、嵌入式、推荐系统、目标检测等多个热门领域。对于计算机专业、软件工程专业、人工智能专业、通信工程专业的毕业生而言，选择一个合适的毕业设计选题至关重要。在这个毕业设计选题合集中，我们精心收集了各种有趣

overfit同步小助手 2024-10-14 11:03:15 0 收藏