大数据 - overfit.cn

【Kafka】Windows下安装Kafka（全面）

overfit同步小助手 2024-09-17 00:04:00 0 收藏

Hopsworks：简化Hadoop管理的强大工具

Hopsworks：简化Hadoop管理的强大工具 hopsworksHopsWorks - Hadoop for Humans项目地址:https://gitcode.com/gh_mirrors/ho/hopsworks 项目介绍Hopsworks是一个专为Hops设计的用户界面，Hops是Ap

overfit同步小助手 2024-09-16 22:07:39 0 收藏

大数据之Spark RDD 持久化

overfit同步小助手 2024-09-16 21:03:56 0 收藏

Canal+RabbitMQ数据同步环境配置

Canal 是阿里巴巴开发的开源工具，主要用于解析 MySQL 的 binlog 日志，从而实现数据同步。Canal 会模拟 MySQL 从库的协议，订阅主库的 binlog，从而获取数据库的变更信息。将 Canal 解析到的 MySQL 数据库变更消息通过 RabbitMQ 分发给下游的消费服务。

overfit同步小助手 2024-09-16 21:03:44 0 收藏

毕设分享基于大数据人才岗位数据分析

这里是毕设分享系列，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据人才岗位数据分析毕业设计基于大数据人才岗位数据分析🧿 项目分享:见文末!

overfit同步小助手 2024-09-16 21:03:31 0 收藏

大数据-133 - ClickHouse 基础概述全面了解

ClickHouse 是一个快速开源的OLAP数据库管理系统，它是面向列的，允许使用SQL查询实时生成分析报告。随着物联网IOT时代的来临，IOT设备感知和报警存储数据越来越大，有用的价值数据需要数据分析师去分析。大数据分析成了非常重要的环节，开源也为大数据分析工程师提供了十分丰富的工具，但这也增加

overfit同步小助手 2024-09-16 21:03:13 0 收藏

【大数据】深入浅出Hadoop，干货满满

Hadoop是一个开源的分布式计算平台，由Apache软件基金会开发和维护。它是大数据处理的基石，能够高效地存储和处理大规模数据。目前业界基本上用的都是**Hadoop及其生态下的产品**。Hadoop的主要特点是高可靠性和高扩展性，它可以在成百上千个节点上运行，每个节点都可以存储和处理数据。

overfit同步小助手 2024-09-16 18:03:33 0 收藏

启动rabbit MQ的服务的时候，提示“错误1067：进程意外停止。”的解决办法

启动rabbit MQ的服务的时候，提示“错误1067：进程意外停止。”

overfit同步小助手 2024-09-16 16:03:26 0 收藏

探索数据的极致速度：Apache Phoenix——HBase上的SQL魔术师

探索数据的极致速度：Apache Phoenix——HBase上的SQL魔术师 phoenixApache Phoenix: 是一个开源的SQL查询引擎，用于处理大规模分布式数据仓库中的数据。适合数据仓库开发者、数据分析师和数据科学家。特点包括提供高速的SQL查询性能、支持多种数据存储格式和查询语言

overfit同步小助手 2024-09-16 13:03:54 0 收藏

大数据之数据湖Apache Hudi

上图中采用时间（小时）作为分区字段，从 10:00 开始陆续产生各种 commits，10:20 来了一条 9:00 的数据，该数据仍然可以落到 9:00 对应的分区，通过 timeline 直接消费 10:00 之后的增量更新（只消费有新 commits 的 group），那么这条延迟的数据仍然可

overfit同步小助手 2024-09-16 13:03:47 0 收藏

【视频教程】GEE遥感云大数据在林业中的应用与典型案例实践

以Earth Engine（GEE）为代表全球尺度地球科学数据（尤其是卫星遥感数据）在线可视化计算和分析云平台应用越来越广泛。该平台存储和同步遥感领域目前常用的MODIS、Landsat和Sentinel等卫星影像、气候与天气、地球物理等方面的数据集超过60PB，同时依托全球上百万台超级服务器，提供

overfit同步小助手 2024-09-16 13:03:42 0 收藏

大数据-132 - Flink SQL 基本介绍与 HelloWorld案例

Flink SQL 是 Apache Flink 提供的一种高层次的查询语言接口，它基于 SQL 标准，为开发者提供了处理流式数据和批处理数据的能力。Flink SQL 允许用户使用标准 SQL 查询语言在数据流和数据表上执行复杂的操作，适用于多种应用场景，如实时分析、数据流处理、机器学习等。Fli

overfit同步小助手 2024-09-16 13:03:36 0 收藏

Flink1.14.* 各种算子在StreamTask控制下如何调用的源码

`StreamTask` 类是处理流数据的核心执行单元。它负责管理算子的生命周期，并调用算子的处理方法，这里从源码的角度分析StreamTask如何调用各个算子的处理方法的

overfit同步小助手 2024-09-16 11:03:41 0 收藏

大数据-134 - ClickHouse 集群三节点安装配置启动

随着大数据时代的到来，企业对高效数据处理和实时分析的需求日益增长。ClickHouse，一款开源的高性能列式数据库，因其卓越的查询速度和可扩展性，正成为数据分析领域的明星产品。比如Hadoop集群、Kafka集群、Redis集群等。我们需要停止之前的服务，来空出一定的内存和端口给 ClickHous

overfit同步小助手 2024-09-16 11:03:15 0 收藏

大数据新视界 --大数据大厂之Kafka消息队列实战：实现高吞吐量数据传输

本文深入探讨 Kafka 消息队列在大数据时代实现高吞吐量数据传输的奥秘及广泛应用场景。详细阐述了分布式架构、异步处理等六大技术优势，涵盖电商、金融、物联网等多领域应用。分析实际案例及注意事项，展望与新兴技术结合潜力。文末设置互动提问，为读者提供丰富知识与实践经验。

overfit同步小助手 2024-09-16 10:03:48 0 收藏

【查看Kafka存储日志时间】

通过查看Kafka的配置文件，你可以了解Kafka broker的默认配置参数，包括消息保留时间和存储大小等。根据需要，你可以修改这些参数来调整Kafka的行为。如果你需要对特定的Topic进行配置，可以使用命令显式设置这些参数，这样在描述信息中就会显示这些参数。要查看Kafka Topic的配置参

overfit同步小助手 2024-09-16 08:03:53 0 收藏

大数据平台Hadoop实验环境部署（完全分布式集群模式）

本文讲述了hadoop大数据实验平台完全分布式集群部署详情

overfit同步小助手 2024-09-16 08:03:47 0 收藏

构建基于 Feign 的微服务：从 Eureka 到负载均衡的实践 --day05

通过上述步骤，成功地创建了一个使用 Feign 实现的服务消费者，它能够调用服务提供者的接口，并且能够处理不同类型的参数（如查询字符串参数和请求体中的复杂对象）。这样的设置不仅简化了服务间调用的代码量，同时也提高了代码的可读性和维护性。

overfit同步小助手 2024-09-16 08:03:31 0 收藏

深度学习集成Spark：Stratio's Deep Spark指南

深度学习集成Spark：Stratio's Deep Spark指南 deep-sparkConnecting Apache Spark with different data stores [DEPRECATED]项目地址:https://gitcode.com/gh_mirrors/de/dee

overfit同步小助手 2024-09-16 06:03:42 0 收藏

RabbitMQ-C 开源项目安装与使用指南

RabbitMQ-C 开源项目安装与使用指南 rabbitmq-cRabbitMQ C client项目地址:https://gitcode.com/gh_mirrors/ra/rabbitmq-c 项目介绍rabbitmq-c 是一个C语言编写的AMQP（Advanced Message Queu

overfit同步小助手 2024-09-16 05:03:37 0 收藏