大数据 - overfit.cn

大数据性能优化: 关键指标与优化策略

1.背景介绍大数据性能优化是一项至关重要的技术，它涉及到大量数据的处理、存储和传输等方面。随着数据规模的不断增长，大数据处理的性能优化成为了一个重要的研究方向。在这篇文章中，我们将讨论大数据性能优化的关键指标以及相应的优化策略。1.1 大数据背景大数据是指由于互联网、物联网、人工智能等技术的发展，数

overfit同步小助手 2024-07-18 07:03:48 0 收藏

【基于大数据的人肥胖程度预测分析与可控策略】

随着现代生活方式的改变，肥胖问题逐渐成为全球性的健康挑战。为了更好地理解和应对肥胖问题，本文将介绍如何使用来自UCI机器学习存储库的墨西哥、秘鲁和哥伦比亚人的肥胖数据，利用K-means聚类、层次聚类、DBSCAN和三种常见的分类模型（Logistic回归、决策树模型、随机森林模型），以及数据可视化

overfit同步小助手 2024-07-18 07:03:18 0 收藏

Flink，spark对比

最终打包成一个zip包上传。它的目的是为了控制一个taskManager 能运行多少个task，所以对资源进行了分配，划分成不同的slot，一般和cpu是1：1 的关系，所以一个算子分布在不同的taskManger 上面，在一个tm的并行度和slot是一比一的关系，那么全局的并行度就是我们自己设置的

overfit同步小助手 2024-07-18 06:03:43 0 收藏

【搭建 Hbase 集群】

在内容开始之前需要了解一下几个方面的知识会更好的帮助学习和搭建Hbase集群Hadoop：Hbase 是建立在 Hadoop基础之上的分布式数据库。了解 Hadoop 的基本概念和架构将有助于您理解 Hbase 的工作原理。分布式系统：Hbase是一个分布式数据库，它将数据存储在多台服务器上。了解分

overfit同步小助手 2024-07-18 00:03:52 0 收藏

大数据之FlinkCDC

当时通过排查任务发现,我们的Flink部署搭建是通过采用Flink StandAlone HA的模式,有三台服务器,当提交任务到主节点以后,发现主节点上的任务运行大概30分钟的时候,服务器的cpu利用率大概是4250%,导致任务宕机.在抽取的过程中,如果表的数据量太大,抽取超过30张表以后,所有的任

overfit同步小助手 2024-07-17 21:03:49 0 收藏

2024年大数据领域的主流分布式计算框架有哪些

2024年大数据领域的主流分布式计算框架介绍

overfit同步小助手 2024-07-17 18:03:46 0 收藏

Flink推测机制

overfit同步小助手 2024-07-17 17:03:23 0 收藏

大数据面试题之Spark(5)

overfit同步小助手 2024-07-17 15:03:20 0 收藏

一文了解和区分数据中台、数据平台、数据湖、数据仓库

在当今数字化时代，数据已经成为推动科技发展和商业创新的关键要素之一。数据中台、数据平台、数据湖和数据仓库是构建现代数据架构的重要组成部分。然而，这些概念之间往往容易混淆。本文将深入介绍并区分这些概念，通过生动的例子帮助读者更好地理解它们之间的关系和区别。

overfit同步小助手 2024-07-17 13:03:37 0 收藏

Spark产生小文件的原因及解决方案

Hadoop集群中的文件都是以块（Block）的形式存储在分布式文件系统（HDFS）中的，而Block的默认大小设置随着Hadoop的版本迭代经历了64MB、128MB、256MB，其大小实际受制于磁盘/网络的传输速率。当Block的大小为128MB时，若一个文件的大小显著小于128MB，我们就称之

overfit同步小助手 2024-07-17 12:03:55 0 收藏

Spark编程基础

Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎特点：运行速度快、容易使用、通用性、运行模式多样。

overfit同步小助手 2024-07-17 09:03:34 0 收藏

Apache Spark 入门指南：概述、安装、使用及RDD基础

Apache Spark 是一个快速且通用的大规模数据处理引擎。它提供了一个易于使用的编程模型，支持Java、Scala、Python和R等多种编程语言。Spark 能够高效地处理各种数据，包括批量数据和实时数据流。在Spark中，RDD（Resilient Distributed Dataset）

overfit同步小助手 2024-07-17 01:03:38 0 收藏

【大数据】什么是数据清洗？（附应用场景及解决方案）

本文介绍了数据清洗的概念、应用场景以及难点，并提出解决方案，就如何用FDL进行数据清洗提供了具体操作步骤。

overfit同步小助手 2024-07-16 21:03:43 0 收藏

Spark SQL 概述

架构、特点、运行原理、API 相关概述、依赖、数据集、基本用法

overfit同步小助手 2024-07-16 19:03:56 0 收藏

[flink 实时流基础] 输出算子（Sink）

如果我们想将数据存储到我们自己的存储设备中，而Flink并没有提供可以直接使用的连接器，就只能自定义Sink进行输出了。与Source类似，Flink为我们提供了通用的SinkFunction接口和对应的RichSinkDunction抽象类，只要实现它，通过简单地调用DataStream的.add

overfit同步小助手 2024-07-16 14:03:35 0 收藏

详解flink sql， calcite logical转flink logical

overfit同步小助手 2024-07-16 14:03:29 0 收藏

安华金和—可信数据空间助力公共数据授权运营安全有序开展的实践探索

2023年，国家数据局围绕公共数据授权运营，在《“数据要素×”三年行动计划（2024—2026年）》中，提出加大公共数据资源供给，在重点领域、相关区域组织开展公共数据授权运营，探索部省协同的公共数据授权机制，通过提升数据供给水平、优化数据流通环境、加强数据安全保障等措施，推动数据要素与劳动力、资本等

overfit同步小助手 2024-07-16 13:07:26 0 收藏

深入浅出Hadoop：从零开始搭建与配置你的大数据处理平台

后续学习路径：鼓励读者进一步探索Hadoop生态系统中的其他组件，如Hive、HBase、Spark等，以及如何根据实际业务需求优化集群配置。总结：回顾Hadoop集群搭建与配置的关键步骤，强调掌握这一技能对于处理大数据挑战的价值。

overfit同步小助手 2024-07-16 13:03:55 0 收藏

Hadoop数仓中常用端口详解:(第36天)

在数仓（数据仓库）开发中，不同的组件和服务会使用不同的端口号进行通信。由于数仓的实现可能依赖于多种技术和框架（如Hadoop、Hive、HBase、Spark等），因此涉及的端口号也会有所不同。以下是一些数仓开发中常用端口号及其作用的概述，以及相关的操作指令建议。常用端口号及其作用。

overfit同步小助手 2024-07-16 13:03:33 0 收藏

【openeuler/spark docker image overview】

【代码】【openeuler/spark docker image overview】

overfit同步小助手 2024-07-16 12:03:46 0 收藏