大数据 - overfit.cn

spark的简单学习二

spark-sql，DSL，

overfit同步小助手 2024-06-25 10:03:54 0 收藏

SparkExactlyonce语义原理与实例

SparkExactly-once语义原理与实例1.背景介绍在现代分布式系统中,数据处理是一个关键的环节。由于数据量的不断增长和计算需求的复杂性,单机系统已经无法满足实时处理大数据的要求。因此,分布式计算框架应运而生,Apache Spark作为一种通用的分布式计算引擎,

overfit同步小助手 2024-06-25 09:03:55 0 收藏

【linux-centos】Canal和Kafka实现mysql的binlog

需要安装php-rdkafka扩展，安装方式：https://www.cnblogs.com/shixiangqian/p/14856009.html。tar -zxvf canal.deployer-1.1.4.tar.gz -C ./canal-1.1.4 解压到canal-1.1.4目录。ca

overfit同步小助手 2024-06-25 09:03:45 0 收藏

创建可视化网页四 : 虚拟机中Hive的安装与配置 , 并测试其是否安装成功

/启动mapreduce。

overfit同步小助手 2024-06-25 09:03:18 0 收藏

伪分布式大数据集群安装

此次我们选择的是通过在VMware虚拟机上面进行Hadoop的安装和配置

overfit同步小助手 2024-06-25 08:03:46 0 收藏

Spark向量化计算在美团生产环境的实践

Apache Spark是一个优秀的计算引擎，广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下，既可获得资源节省和加速作业执行。Gluten+Velox解决方案为Spark换上了向量化执行引擎，本文将阐述美团在这一方向的实践和思考，希望对大家有所帮助或启发。

overfit同步小助手 2024-06-25 08:03:39 0 收藏

Hive超详细安装

Hive的超详细安装

overfit同步小助手 2024-06-25 06:03:52 0 收藏

Kafka消费者

消费者组内的消费者负责消费不同的分区，一个分区只能由组内一个消费者消费。手动提交offset：每次消费完数据之后由消费者自己提交offset信息，分为同步提交（阻塞当前线程，提交offset成功后才消费下一波数据，并且会有失败重试）和异步提交（发送了提交请求之后不管成功，直接消费下一波数据）。自动提

overfit同步小助手 2024-06-25 05:03:45 0 收藏

Zookeeper 集群的应用场景

Zookeeper 是一个分布式协调服务，主要用于管理分布式应用中的配置、同步和命名等任务。由于其高可用性、一致性和可靠性，Zookeeper 被广泛应用于各种分布式系统中。

overfit同步小助手 2024-06-25 05:03:26 0 收藏

【大数据】StarRocks的四种数据模型

这边博客，我们主要来学习下StarRocks的四种数据模型：明细模型 (Duplicate Key Model)、聚合模型 (Aggregate Key Model)、更新模型 (Unique Key Model) 和主键模型 (Primary Key Model)。这四种数据模型能够支持多种数据分

overfit同步小助手 2024-06-25 04:03:41 0 收藏

不想搭集群，直接用spark

需要用到spark的本地模式，根本用不到集群，就不想搭建虚拟机，hadoop集群啥的，很繁琐，最后写作业还用不到集群（感觉搭建集群对于我完成作业来说没有什么意义），所以才想办法在windows环境下，直接安装jdk、scala、spark等，使用spark的本地模式来写作业。

overfit同步小助手 2024-06-25 04:03:38 0 收藏

【AI大数据计算原理与代码实例讲解】Yarn

【AI大数据计算原理与代码实例讲解】Yarn1.背景介绍在大数据时代，数据的处理和分析变得至关重要。Yarn（Yet Another Resource Negotiator）作为Hadoop生态系统中的资源管理框架，极大地提升了大数据处理的效率和灵活性。Yarn的出现解决了传

overfit同步小助手 2024-06-25 03:03:46 0 收藏

数据仓库的ETL框架与工具

1.背景介绍数据仓库是一种用于存储和管理大量历史数据的系统，它通常用于支持企业的决策分析和业务智能应用。数据仓库的核心功能是将来自不同源的数据集成到一个中心化的仓库中，并提供高效的查询和分析服务。为了实现这一目标，数据仓库需要一个高效的数据集成和转换框架，这就是ETL(Extract, Transf

overfit同步小助手 2024-06-25 01:03:49 0 收藏

大数据技术8：StarRocks极速全场景MPP数据仓库

StarRocks 是一款高性能分析型数据仓库，使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据，也支持直接分析数据湖上各种格式的数据。StarRocks 兼容 MySQL

overfit同步小助手 2024-06-25 01:03:44 0 收藏

Kafka Producer原理与代码实例讲解

Kafka Producer 原理与代码实例讲解1. 背景介绍Apache Kafka 是一个分布式流处理平台,它提供了一种统一、高吞吐、低延迟的方式来处理实时数据流。Kafka 被广泛应用于日志收集、消息系统、数据管道、流式处理等多种场景。其中,Kafka Produ

overfit同步小助手 2024-06-25 00:03:49 0 收藏

Hadoop编写MapReduce程序计算超市销售数据月份销售总额

Hadoop分布式文件系统（HDFS）是Apache Hadoop生态系统的核心组件之一，用于存储和管理大规模数据集。它设计用于在廉价的硬件上运行，并且提供高可靠性、高性能的分布式存储解决方案。本文将深入探讨HDFS的工作原理、架构和优势。

overfit同步小助手 2024-06-25 00:03:44 0 收藏

使用Flink进行股票计算

在每个分区上，我们定义一个滑动窗口，窗口大小为60秒，然后使用AggregateFunction进行聚合计算。通过这个流程，我们可以实时计算每个股票代码在每分钟内的平均交易价格，为股票交易提供有价值的信息。这个程序的主要目的是读取股票数据，按照股票代码进行分组，然后在每个 60 秒的窗口内计算每种股

overfit同步小助手 2024-06-25 00:03:21 0 收藏

HTTP方式在线访问Hadoop HDFS上的文件解决方案

为了通过HTTP方式在线访问HDFS上的文件，您可以利用WebHDFS REST API或者HttpFS Gateway这两种机制实现。1：httpfs是cloudera公司提供的一个hadoop hdfs的一个http接口，通过WebHDFS REST API 可以对hdfs进行读写等访问2：与W

overfit同步小助手 2024-06-24 22:03:46 0 收藏

大数据基础篇_01

摘要：本章内容主要是对大数据概念，常用技术栈及常用架构Hadoop的介绍。以及hdfs相关的机制的介绍

overfit同步小助手 2024-06-24 21:03:51 0 收藏

深入了解Apache Kafka：分布式流处理平台的详细介绍

Apache Kafka 是一个功能强大的分布式流处理平台，具有高吞吐量、低延迟、高可扩展性、持久性、容错性和多种消费模式等优点。它可以用于构建各种数据密集型应用程序，例如实时数据管道、网站活动跟踪、日志聚合、流处理等。随着大数据和实时分析需求的不断增长，Kafka 的应用将会越来越广泛

overfit同步小助手 2024-06-24 20:03:48 0 收藏