大数据 - overfit.cn

大数据-153 Apache Druid 案例从 Kafka 中加载数据并分析

Apache Druid 从 Kafka 中获取数据并进行分析的流程通常分为以下几个步骤：Kafka 数据流的接入： Druid 通过 Kafka Indexing Service 直接从 Kafka 中摄取实时流数据。Kafka 是一个高吞吐量的消息队列，适合处理大量实时数据。Druid 会订阅

overfit同步小助手 2024-10-04 04:03:16 0 收藏

Spark Daria 开源项目教程

Spark Daria 开源项目教程 spark-dariaEssential Spark extensions and helper methods ✨????项目地址:https://gitcode.com/gh_mirrors/sp/spark-daria 项目介绍Spark Daria 是由

overfit同步小助手 2024-10-04 03:03:50 0 收藏

ZooKeeper

这段配置告诉 Maven 在编译项目时，需要使用 Spring Boot 配置处理器、Lombok 和 MapStruct 这三个注解处理器。这些处理器会根据我们代码中的注解，自动生成一些额外的代码，从而简化我们的开发工作。

overfit同步小助手 2024-10-04 02:03:33 0 收藏

大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计

Apache Druid 是一个高效的实时数据存储和分析系统，结合 Kafka 能实现对实时流数据的摄取与处理。典型的流程是先通过 Kafka 采集数据，Kafka 作为数据源接收生产者发送的实时数据，比如用户行为日志或传感器数据。Druid 通过 Kafka Indexing Service 实时

overfit同步小助手 2024-10-04 01:03:38 0 收藏

数据集成-缝合一套数据仓库Infra的臆想

也就是说，数据库的组织结构决定它的分析能力并不好，相对地，数据仓库的组织结构，能够让它快速简单地处理分析的请求，帮助决策者优化流程、节省成本和保障质量。这种分析需求无法在保存瞬态数据的事务型数据库中完成，也不能在保存大量历史数据的数据仓库中完成，形成 DB-ODS-DW 的三层体系结构。这样基于成熟

overfit同步小助手 2024-10-03 23:03:52 0 收藏

HBase权威指南：深入探索大数据存储与处理

HBase权威指南：深入探索大数据存储与处理 hbase-book Contains the code used in the HBase: The Definitive Guide book.

overfit同步小助手 2024-10-03 22:03:51 0 收藏

Zookeeper 3.36详解：JDK1.7分布式协调服务

本文还有配套的精品资源，点击获取简介：Apache ZooKeeper是一个开源的分布式协调服务，提供命名服务、配置管理、集群同步和领导者选举等核心功能。Zookeeper 3.36版本针对JDK1.7进行了优化，确保了稳定性和性能。本教程将详细介绍Zookeeper的核心概念、架构、功能，以

overfit同步小助手 2024-10-03 22:03:48 0 收藏

Pyspark dataframe基本内置方法(5)

pyspark 中对于pyspark sql dataframe的操作方式详细使用方式以及演示

overfit同步小助手 2024-10-03 21:03:22 0 收藏

大数据开发-hadoop基于协同过滤算法的电脑硬件推荐系统(源码+爬虫可视化+文档+调试)

随着大数据技术的不断发展和普及，越来越多的用户需要使用电脑硬件来处理庞大的数据量。然而，在市面上繁多的电脑硬件产品中，用户往往难以选择到最适合自己需求的产品。为了解决这一问题，本文提出了基于大数据的电脑硬件推荐系统。本文首先通过对大数据和电脑硬件的相关知识进行综述，分析了大数据技术对电脑硬件性能的要

overfit同步小助手 2024-10-03 20:03:45 0 收藏

hadoop+spark+hive基于django的民族服饰数据分析系统的设计与实现(源码+爬虫可视化展示+调试+讲解)

随着网络科技的发展，利用大数据分析对民族服饰进行管理已势在必行；该平台将帮助企业更好地理解服饰市场的趋势，优化服装款式，提高服装的质量。本文讲述了基于python语言开发，后台数据库选择MySQL进行数据的存储。该软件的主要功能是进行服饰数据分析。主要包括个人中心、用户管理、民族服饰管理、数据统计管

overfit同步小助手 2024-10-03 19:04:06 0 收藏

Kafka with Akka Streams and Kafka Streams 教程

Kafka with Akka Streams and Kafka Streams 教程 kafka-with-akka-streams-kafka-streams-tutorialCode samples for the Lightbend tutorial on writing microser

overfit同步小助手 2024-10-03 19:03:31 0 收藏

kafka快速上手

Kafka 是一个分布式流媒体平台,类似于消息队列或企业消息传递系统。kafka官网：http://kafka.apach e.org/

overfit同步小助手 2024-10-03 18:04:55 0 收藏

Flink CDC：新一代实时数据集成框架

本文源自阿里云实时计算团队 Apache Flink Committer 任庆盛在 Apache Asia CommunityOverCode 2024 的分享，涵盖 Flink CDC 的概念、版本历程、内部实现及社区未来规划。Flink CDC 是一种基于数据库日志的 CDC 技术实现的数据集成

overfit同步小助手 2024-10-03 18:04:52 0 收藏

2024 年，Hadoop 已经被 Apache Spark 全面取代了吗？

Apache Spark是一个快速、通用、可扩展的大数据处理引擎，它提供了内存计算的能力，能够显著提高大数据处理的性能。Spark支持多种计算模型，如批处理、流处理、图计算和机器学习等，并且提供了丰富的编程接口，如Scala、Java、Python等。Hadoop和Spark在大数据处理领域各自具有

overfit同步小助手 2024-10-03 18:04:47 0 收藏

详细讲解hive on tez中各个参数作用，以及如何优化sql

最近经常有优化sql的任务，但是自己能力有限，只能凭经验去优化，现整理加学习一波，也欢迎各位学习和讨论。我们经常用hivesql 的模型就是 join.如下。这里面发生了什么，执行流程是什么，为什么有的insert要几十分钟有的只要几分钟。--造1000w条数据文件大小为300M已知上面的数据为1

overfit同步小助手 2024-10-03 17:03:29 0 收藏

Python/大数据/机器识别毕业设计选题题目推荐

基于Python和Diango在线购物商城系统+报告文档+指导搭建视频基于深度学习的人脸识别与管理系统，Python实现基于Python/机器学习链家网新房数据可视化及预测系统Python豆瓣电影情感分析推荐系统+爬虫+可视化，过滤算法基于python的django框架生鲜商城管理系统设计与实现基于

overfit同步小助手 2024-10-03 16:03:43 0 收藏

Hadoop三大组件之HDFS（一）

HDFS（Hadoop Distributed File System）采用主从架构，由一个NameNode（主节点）和多个DataNode（从节点）组成。NameNode负责管理数据块映射信息（如文件名、文件目录、权限、块位置等）并配置副本策略，而DataNode负责存储实际的数据块。定期从Nam

overfit同步小助手 2024-10-03 16:03:36 0 收藏

大数据-155 Apache Druid 架构与原理详解数据存储索引服务压缩机制

Segment创建完成之后，Segment文件就是不可更改的，被写入到深度存储（目的是为了防止MiddleManager节点宕机后，Segment丢失）。负责创建Task、分发Task到MiddleManger上运行，为Task创建锁以及跟踪Task运行状态并反馈给用户。同时，Metadata st

overfit同步小助手 2024-10-03 15:03:59 0 收藏

ZooKeeper Dashboard 项目教程

ZooKeeper Dashboard 项目教程 zookeeper_dashboardDjango based dashboard for an Apache ZooKeeper cluster.项目地址:https://gitcode.com/gh_mirrors/zo/zookeeper_da

overfit同步小助手 2024-10-03 15:03:55 0 收藏

Hadoop如何进行分布式存储和处理大数据？

Hadoop是一个开源的分布式系统基础架构，它由多个组件组成，这些组件协同工作，以支持大规模数据集的存储和处理。本文是Hadoop如何进行分布式存储和处理大数据的详细说明：

overfit同步小助手 2024-10-03 15:03:50 0 收藏