大数据 - overfit.cn

Hadoop YARN功能介绍--资源管理、调度任务

YARN是一个通用资源管理系统平台和调度平台，可为上层应用提供统一的资源管理和调度。他的引入为集群在利用率、资源统一管理和数据共享等方面带来了好处。

overfit同步小助手 2023-11-03 23:02:57 0 收藏

Linux安装 spark 教程详解

链接: https://pan.baidu.com/s/1Brm6XqaqYQnXQwOd8mUt7A?链接: https://pan.baidu.com/s/1ua01OvTYjFQyG82AG1g1yg?scala 的安装比较简单，spark 的运行环境需要 scala。添加配置，这里根据自己的

overfit同步小助手 2023-11-03 19:03:54 0 收藏

Hadoop——大数据生态体系详解

这是管理队列及工作者集群的另一种方式。1）Sqoop：sqoop 是一款开源的工具，主要用于在 Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递，可以将一个关系型数据库（例如：MySQL ,Oracle 等）中的数据导进到 Hadoop 的 HDFS 中，也可以将 HDFS

overfit同步小助手 2023-11-03 17:03:48 0 收藏

新一代数据湖存储技术Apache Paimon入门Demo

新一代数据湖存储技术Apache Paimon（Flink Table Store）入门Demo，本文给出了一些简单的flink-paimon样例（example），可供快速学习上手（文中所有代码均已跑通）。

overfit同步小助手 2023-11-03 16:06:05 0 收藏

解决git：‘remote-http‘ 不是一个 git 命令错误提示

第一步：yum -y install curl-devel curl libcurl-devel libcurl。stderr: git：‘remote-http’ 不是一个 git 命令。参见 ‘git --help’。安装Git时缺少curl-devel curl libcurl-devel l

overfit同步小助手 2023-11-03 10:04:29 0 收藏

【大数据Hadoop】HDFS-HA模式下ZKFC(DFSZKFailoverController)高可用主备切换机制

当一个NameNode被成功切换为Active状态时，它会在ZK内部创建一个临时的znode，在znode中将会保留当前Active NameNode的一些信息，比如主机名等等。当Active NameNode出现失败或连接超时的情况下，监控程序会将ZK上对应的临时znode进行删除，znode的删

overfit同步小助手 2023-11-03 07:03:13 0 收藏

数据挖掘和大数据的区别

大数据是数据挖掘产业化的表现

overfit同步小助手 2023-11-03 02:03:48 0 收藏

HBase 开发：使用Java操作HBase 第3关：获取数据

HBase 开发：使用Java操作HBase第3关：获取数据

overfit同步小助手 2023-11-02 17:03:44 0 收藏

Hadoop中重新格式化NameNode的操作

有时候，我们需要重新格式化NameNode，这意味着清除现有的文件系统命名空间和元数据，并创建一个全新的NameNode实例。此外，重新格式化NameNode后，您可能还需要重新配置和恢复您的Hadoop集群的其他组件和作业。完成上述步骤后，您的Hadoop集群的NameNode将被重新格式化，并且

overfit同步小助手 2023-11-02 16:03:36 0 收藏

技术选型：何时使用Elasticsearch而不是MySQL？

MySQL 是一个关系型数据库管理系统（RDBMS），它使用表（table）来存储结构化的数据，每个表由多个行（row）和列（column）组成，每个列有一个预定义的数据类型，例如整数、字符串、日期等。MySQL 支持主键、外键、约束、触发器等关系型数据库的特性，以保证数据的完整性和一致性。Ela

overfit同步小助手 2023-11-02 16:02:20 0 收藏

人工智能技术基础系列之：情感分析

作者：禅与计算机程序设计艺术 1.简介人工智能(AI)技术已经成为当今社会的一个热门话题。基于这个热点，很多公司和组织都投入了大量的精力和资源在研发相应的AI产品。其中最突出的就是自然语言处理技术，可以实现对用户输入、自然语音、短信等各种媒介的文字或语音数据的自

overfit同步小助手 2023-11-02 16:01:14 0 收藏

大数据学习(6)-hive底层原理Mapreduce

在Reduce阶段，不同的Map任务输出的键值对通过Shuffle机制进行分区和排序，相同key的数据value放在一个集合中。然后，对每个key对应的value集合进行归约处理，即执行Reduce函数。在Map阶段，MapTask并行度决定机制根据InputFormat数据切片机制对输入数据进行切

overfit同步小助手 2023-11-02 14:03:42 0 收藏

处理大规模数据时的 Spark 踩坑经验

以上是我在使用 Spark 处理大规模数据时遇到的一些问题和解决方案。在处理大规模数据时，应该注意内存溢出、网络问题、数据倾斜和 GC 停顿等问题，并根据实际情况采取相应的解决方法。

overfit同步小助手 2023-11-02 12:03:44 0 收藏

大数据-Storm流式框架（六)---Kafka介绍

默认的消息保留策略是，要么保存一段时间（7天），要么保留消息到一定大小的字节数（1GB）。1、kafka的生产者在发送消息到kafka的时候，如果消息没有指定key，则按照轮询的策略，依次将各个消息发送给不同的主题的分区。最简单的例子，为键生成一个一致性散列值，然后使用散列值对主题分区进行取模，为消

overfit同步小助手 2023-11-02 11:03:40 0 收藏

7.2、如何理解Flink中的水位线(Watermark)

如何理解Flink中的水位线(Watermark)

overfit同步小助手 2023-11-02 08:05:16 0 收藏

日前调度中发电计划的制定原则及过程

电力系统自动化日前调度中发电计划的制定原则及过程

overfit同步小助手 2023-11-02 08:03:56 0 收藏

大数据领域如何理解 Merge、Combine和Aggregate

例如，在MapReduce、Spark等大数据框架中，Shuffle过程中的Combiner可以将同一个节点上的中间结果组合起来，以减少数据在网络中的传输。在大数据领域，这通常涉及到将不同来源或分布式存储的数据整合在一起。例如，在SQL查询中的GROUP BY子句，以及Spark、Hadoop等大数

overfit同步小助手 2023-11-02 06:03:45 0 收藏

大数据前置学习基础准备(非常详细!)

在大数据的学习中，前置基础是必不可少的，这一篇非常详细的基础配置文章教程就非常适合做你的入门首选！

overfit同步小助手 2023-11-02 02:03:42 0 收藏

AI工程师必备编程技能: 数据处理与分析精讲 (Advanced)

作者：禅与计算机程序设计艺术 1.简介数据处理与分析是AI工程师的一项重要工作。优秀的数据处理与分析能力将直接影响到机器学习模型的性能、模型效果、系统效率等各个方面。但是，对于初级AI工程师而言，掌握的数据处理与分析技能也至关重要。因此，本专栏力求帮助AI工程师

overfit同步小助手 2023-11-02 02:01:46 0 收藏

Windows环境下Elasticsearch的下载与安装

elasticsearch-service.bat后面还可以执行这些命令。三、ElasticSearch安装为Windows服务。npm run start，运行；Elasticsearch服务。

overfit同步小助手 2023-11-01 23:03:21 0 收藏