大数据 - overfit.cn

探索高效能：Splash——Spark的灵活洗牌管理器

探索高效能：Splash——Spark的灵活洗牌管理器 splashSplash, a flexible Spark shuffle manager that supports user-defined storage backends for shuffle data storage and ex

overfit同步小助手 2024-10-08 02:04:07 0 收藏

MQ基础：RabbitMQ真面目

介绍了RabbitMQ的基础知识，快来看看吧~

overfit同步小助手 2024-10-08 02:03:49 0 收藏

探索未来机器人的强大伙伴：SPARK-MAX-Examples

探索未来机器人的强大伙伴：SPARK-MAX-Examples SPARK-MAX-ExamplesExample code for SPARK MAX项目地址:https://gitcode.com/gh_mirrors/sp/SPARK-MAX-Examples 在机器人技术和教育领域，开源项目

overfit同步小助手 2024-10-08 01:03:18 0 收藏

Hadoop资源全解压缩包

本文还有配套的精品资源，点击获取简介：Hadoop是一个开源的分布式计算框架，专为处理和存储大数据设计。本资源包“hadoop.zip”提供了一系列Hadoop核心组件和相关资源，包括HDFS和MapReduce，以及源代码、构建脚本、配置文件、文档和测试用例等。通过掌握这些内容，用户可以深入

overfit同步小助手 2024-10-08 00:04:00 0 收藏

Hadoop之mapreduce -- WrodCount案例以及各种概念

mapreduce的介绍以及Java代码实现mapreduce的word count案例

overfit同步小助手 2024-10-08 00:03:56 0 收藏

尚硅谷大数据全套技术链接

链接：https://pan.baidu.com/s/1UWloFOsZHgMSzIvmx6n9MA。链接：https://pan.baidu.com/s/1pT5Pdnjy4hLiFX2Oov4BLQ。链接：https://pan.baidu.com/s/1SVt51kJjvFnNcMR30glO

overfit同步小助手 2024-10-08 00:03:27 0 收藏

分布式框架 - ZooKeeper

是一个分布式程序的协调服务，是Hadoop和Hbase的重要组件。提供的功能包括：配置维护、域名服务、分布式同步、组服务等。

overfit同步小助手 2024-10-07 23:03:43 0 收藏

Zookeeper与Docker集成与应用

Zookeeper与Docker集成与应用作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着分布式系统的广泛应用，

overfit同步小助手 2024-10-07 22:03:43 0 收藏

Flink 窗口最全汇总

将要计算的数据限制一个范围，统计一个范围内的数据。将无界的数据切割成有届的数据。

overfit同步小助手 2024-10-07 22:03:17 0 收藏

Hive之任务优化

Hive 是一个基于 Hadoop 的数据仓库工具，提供了 SQL-like 的查询语言来分析存储在 HDFS（Hadoop Distributed File System）上的大规模数据集。为了提高查询性能，Hive 提供了多种优化方法，涵盖不同层次的改进，从 SQL 查询层到执行层。

overfit同步小助手 2024-10-07 21:03:42 0 收藏

运维学习————kafka(1)

kafka中文文档kafka是由apache软件基金会开发的一个开源流处理框架，由JAVA和scala语言编写。是一个高吞吐量的分布式的发布和订阅消息的一个系统。Kafka用于构建实时的数据管道和流式的app.它可以水平扩展，高可用，速度快，并且已经运行在数千家公司的生产环境。

overfit同步小助手 2024-10-07 20:03:44 0 收藏

【RabbitMQ】RabbitMQ 的概念以及使用RabbitMQ编写生产者消费者代码

本文介绍了 RabbitMQ 的核心概念，包括生产者、消费者、Connection 和 Channel、Virtual host、Queue、Exchange 等，还讲解了 AMQP 协议及 RabbitMQ 快速入门，包括引入依赖、编写生产者和消费者代码及示例。

overfit同步小助手 2024-10-07 20:03:31 0 收藏

Kafka在Windows下的详细安装指南：一站式解决方案

Kafka在Windows下的详细安装指南：一站式解决方案 KafkaWindows下安装Kafka图文记录详细步骤项目地址: https:/

overfit同步小助手 2024-10-07 18:04:08 0 收藏

陌陌聊天数据案例分析

陌陌是一个聊天平台，每天都会产生大量大聊天数据，通过对聊天数据的统计分析，可以更好的构建用户画像，为用户提供更好的服务以及实现高ROI的平台运营推广，给公司的决策提供精准的数据支撑。基于Hadoop和hive实现聊天数据统计分析，构建聊天数据分析报表。统计今日总消息量、每小时消息量、发送和接受用户数

overfit同步小助手 2024-10-07 18:04:01 0 收藏

大数据实时数仓Hologres（四）：基于Flink+Hologres搭建实时数仓

在Flink开发平台，新建名为DWD的SQL流作业，并将如下代码拷贝到SQL编辑器后，部署并启动作业。创建Catalog时可以设置默认的源表、维表和结果表的WITH参数，也可以设置创建Hologres物理表的默认属性，例如上方table_property开头的参数。a) 在Flink开发平台，新建名

overfit同步小助手 2024-10-07 18:03:54 0 收藏

大数据新视界 --大数据大厂之TeZ 大数据计算框架实战：高效处理大规模数据

本文聚焦 TeZ 大数据计算框架，阐述其采用 DAG 执行模式提升 MapReduce 性能，基于内存传递数据对比传统框架优势明显。介绍性能提升（如电商数据处理）和灵活性优势，给出 TeZ 实战中的环境搭建、WordCount 示例，还有大规模数据处理优化策略。最后展示金融、医疗行业应用案例，如银行

overfit同步小助手 2024-10-07 18:03:38 0 收藏

Spark的介绍

DataBricks官网：https://databricks.com/spark/aboutspark的诞生其实是因为MR计算引擎太慢了。MR计算是基于磁盘的，Spark计算是基于内存的。spark的发展历程：2009年，Spark诞生于伯克利AMPLab，伯克利大学的研究性项目。2014年2月成

overfit同步小助手 2024-10-07 16:03:30 0 收藏

大数据毕业设计选题推荐-重庆旅游景点数据分析系统-Python-Hive-Hadoop-Spark

近年来，重庆作为中国西部地区的重要旅游目的地，其旅游业呈现出蓬勃发展的态势。根据重庆市文化和旅游发展委员会的数据，2022年重庆接待国内外游客3.19亿人次，同比增长35.6%；实现旅游总收入3,651.23亿元，同比增长41.2%。这一增长趋势在线上平台得到了充分反映，据某知名旅游网站统计，202

overfit同步小助手 2024-10-07 16:03:23 0 收藏

阿里云kafka消息写入topic失败

本章主要介绍了一下，本人在工作中遇到的kafka 消息写入主题失败的排查过程

overfit同步小助手 2024-10-07 15:03:53 0 收藏

【Earth‘s Future】遥感大数据在水环境监测中的应用现状、挑战与未来展望

水动力学和水质估计是研究生态、环境和水文过程的基本但具有挑战性的问题。水提取和利用遥感大数据对水质参数进行定量估计，由于遥感大数据具有多尺度地球表面有效和连续监测的能力，为观测水动态和水质估算提供了有效的途径。在过去的几十年里，人们付出了相当大的努力来开发各种取水和定量估计不同类型水（包括海洋、湖泊

overfit同步小助手 2024-10-07 15:03:48 0 收藏