大数据 - overfit.cn

基于Spark天气数据分析系统的设计与实现

在大数据时代，天气数据作为一种重要的公共资源，不仅影响人们的日常生活，还对农业、交通、能源等多个领域产生深远影响。通过对天气数据的全面处理和展示，可以帮助人们更好地理解和预测天气变化，从而做出更加科学的决策。我们设计并实现了一个基于Spark的天气数据分析系统，该系统通过数据采集、清洗、分析和可视化

overfit同步小助手 2024-07-19 23:03:31 0 收藏

Git 命令行快速入门

overfit同步小助手 2024-07-19 20:04:15 0 收藏

Spark RDD实现分组求TopN

这会得到一个新的RDD，其中的元素是二元组，其中第一个元素是姓名，第二个元素是一个迭代器，包含与该姓名关联的所有成绩的二元组。该Scala代码使用了Apache Spark的RDD（弹性分布式数据集）API来处理一个文本文件，该文件包含按逗号分隔的姓名和成绩数据。因为每一行为一条数据，所以先构成（姓

overfit同步小助手 2024-07-19 19:03:25 0 收藏

Spark 的Shuffle原理及调优

在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce，而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中，往往伴随着大量的磁盘和网络I/O。所以，Hadoop中的shuffle性能的高

overfit同步小助手 2024-07-19 11:03:54 0 收藏

大数据的地理信息系统：QGIS和ArcGIS的应用

1.背景介绍大数据的地理信息系统(Geographic Information System, GIS)是一种利用计算机科学技术为地理空间数据创建、管理、分析、显示和共享的系统。在大数据时代，地理信息系统在各个领域的应用越来越广泛。例如，地理信息系统在地理信息科学、地理信息工程、地理信息服务、地理信

overfit同步小助手 2024-07-19 11:03:43 0 收藏

Hadoop HA ( 3.3.6 ) 保姆级教程，你值得拥有！

master启动journalnode: hdfs --daemon start journalnode。slave1中没有 namenode 则 hdfs namenode -bootstrapStandby。==>目的是：除master的其他namenode节点上同步信息(备份namenode)

overfit同步小助手 2024-07-19 11:03:35 0 收藏

深入解析 Spark SQL 中的 REPARTITION 操作

overfit同步小助手 2024-07-19 10:03:55 0 收藏

58、Flink 的项目配置使用 Maven 详解

Flink 的项目配置使用 Maven 详解

overfit同步小助手 2024-07-19 10:03:16 0 收藏

【Elasticsearch】Elasticsearch集群管理在分布式环境中的应用

然而，在分布式环境下管理Elasticsearch集群并不是一件简单的任务，需要考虑到集群的节点配置、索引和分片管理、数据的高可用性和灾难恢复、性能调优等多方面的内容。在分布式环境下管理Elasticsearch集群是一项复杂且充满挑战的任务，需要在集群配置、索引和分片管理、高可用性和灾难恢复、性能

overfit同步小助手 2024-07-19 08:02:07 0 收藏

大数据基础篇_02

本章内容主要是对hive的概念与使用做一个简述（之后一章会有更详细的介绍），mapreduce执行流程的介绍，Yarn的执行流程的介绍及Zookeeper的相关介绍

overfit同步小助手 2024-07-19 06:03:44 0 收藏

光明与速度：AI网络中GPU与光模块的协奏曲

🌟四大网络配置下的光模块需求📍A100+ConnectX6+QM8700三层网络：比例1：6，全部采用200G光模块。📍A100+ConnectX6+QM9700两层网络：1：0.75的800G光模块+1：1的200G光模块。📍H100+ConnectX7+QM9700两层网络：1：1.5的

overfit同步小助手 2024-07-19 05:01:43 0 收藏

基于Hadoop的bilibili每周必看词条分析

这次实验中，对……的数据信息进行研究，通过运用大数据处理框架 Spark、Hadoop 及数据可视化技术，对这些数据进行存储、处理和分析，并对……分类。本实验展示了如何利用Hadoop技术对Bilibili平台的数据进行分析，特别是关注每周的热门词条。这些分析可以帮助理解用户的喜好和趋势，为内容创作

overfit同步小助手 2024-07-18 23:04:01 0 收藏

重庆大学的计算机学院VS大数据与软件学院

带大家从学科实力、报录数据、考研难度三个维度来进行对比分析两个学院的一个具体情况

overfit同步小助手 2024-07-18 23:03:46 0 收藏

大数据基础：Doris重点架构原理

基于 MPP 架构的高性能、实时的分析型数据库，以极速易用的特点被人们所熟知，仅需亚秒级响应时间即可返回海量数据下的查询结果，不仅可以支持高并发的点查询场景，也能支持高吞吐的复杂分析场景。

overfit同步小助手 2024-07-18 23:03:37 0 收藏

Spark SQL的基本使用和操作

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spar

overfit同步小助手 2024-07-18 19:03:23 0 收藏

Hadoop之Ha高可用搭建教程

随着大数据技术的不断发展，Hadoop作为开源的大数据处理框架，已经广泛应用于各种场景中。然而，在大型生产环境中，Hadoop集群的稳定性和可用性显得尤为重要。为了保障Hadoop集群的高可用性（HA），我们需要采用一系列的技术和策略。本文将重点介绍Hadoop集群的HA高可用方案。Hadoop集群

overfit同步小助手 2024-07-18 16:03:48 0 收藏

Flink底层原理解析：案例解析（第37天）

Apache Flink 是一个开源的流处理框架，用于处理无界和有界数据流。其底层原理复杂而精细，涉及到数据流模型、任务调度与执行、内存管理、容错机制等多个方面。本文是对 Flink 底层原理的详细分析，并通过举例来说明这些原理。

overfit同步小助手 2024-07-18 12:03:26 0 收藏

华为面试题及答案——大数据

在 hadoop-env.sh 文件中，可以增加 JVM 分配给 NameNode 的内存。通常是在 HADOOP_NAMENODE_OPTS 中增加 -Xmx 参数来增加最大堆内存。export HADOOP_NAMENODE_OPTS="-Xmx8g -Xms4g ${HADOOP_NAMENO

overfit同步小助手 2024-07-18 11:03:22 0 收藏

大数据领域的深度分析——AI是在帮助开发者还是取代他们？

在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。

overfit同步小助手 2024-07-18 09:01:45 0 收藏

华为云提出五大举措加速AI落地，携手21家企业发布联合创新方案

6月22日，华为开发者大会2024期间，华为云举办“解难事，做难事，AI重塑千行万业”的高峰论坛。会上，华为云提出五大举措加速AI落地行业，分享在盘古大模型、昇腾AI云服务等产品领域的全新能力，并与来自港口、工业、交通、医药、互联网等企业共同探讨AI重塑千行万业的创新技术和优秀实践。

overfit同步小助手 2024-07-18 09:01:11 0 收藏