Hadoop - overfit.cn

【Hadoop】二、Hadoop MapReduce与Hadoop YARN

分布式计算概念分布式计算是一种计算方法，和集中式计算是相对的。随着计算技术的发展，有些应用需要非常巨大的计算能力才能完成，如果采用集中式计算，需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。MapReduce介绍

overfit同步小助手 2023-06-30 10:04:53 0 收藏

VMware 克隆失败，提示指定的虚拟磁盘需要修复【已解决】

进入VMware安装目录后进行修复

overfit同步小助手 2023-06-30 03:03:52 0 收藏

hive删除分区部分数据

insert overwrite table t_finance_tax_bill partition (importdate='20220218')select bill_id , apply_emp_id , bill_type_name

overfit同步小助手 2023-06-30 01:04:19 0 收藏

Hadoop集群启动后利用Web界面管理HDFS

Hadoop集群启动后，可以通过自带的浏览器Web界面查看HDFS集群的状态信息，访问IP为NameNode所在服务器的IP地址，在浏览器地址栏中输入192.168.107.131：50070即可打开HDFS的web界面。例如我的NameNode所在服务器的IP地址为192.168.107.131。

overfit同步小助手 2023-06-30 00:04:16 0 收藏

[Hive高级特性与 DDL和DML语法]

五花马千金裘

overfit同步小助手 2023-06-29 16:04:39 0 收藏

Hadoop集群搭建

如果已经正确启动，则在Master节点上可以看到 NameNode、ResourceManager、SecondrryNameNode和JobHistoryServer进程。首次启动Hadoop集群时，需要先在Master节点执行名称节点的格式化（只需要执行这一次，后面再启动Hadoop时，不要再次

overfit同步小助手 2023-06-29 08:02:58 0 收藏

Python报错socket.gaierror: [Errno 11001] getaddrinfo failed

解决Python报错——socket.gaierror: [Errno 11001] getaddrinfo failed

overfit同步小助手 2023-06-29 06:03:45 0 收藏

助力工业物联网，工业大数据之数仓维度层DWS层构建【十二】

step3：通过游标来执行SQL语句：execute(String：SQL)：基于某一业务事件行为下的度量，是业务定义中不可再拆分的指标，如支付总金额。：基于原子指标添加了维度：近7天的支付总金额等。只要知道指标的计算方式，基于维度分组计算指标。ODS层与DWD层的功能与区别是什么？step1：先

overfit同步小助手 2023-06-29 04:04:43 0 收藏

Hive多行转多列，多列转多行

overfit同步小助手 2023-06-28 20:04:53 0 收藏

【大数据原理与技术】期末习题总结大全，建议收藏

📢📢题目来源于B站，慕课网，百度，适用于期末复习，内容仅供参考，祝大家考试顺利！MapReduce体系结构主要由四个部分组成，分别是：Client、JobTracker、TaskTracker以及Task。

overfit同步小助手 2023-06-28 16:04:31 0 收藏

Hadoop和Hive的关系

overfit同步小助手 2023-06-28 15:04:32 0 收藏

2022 大一大二基础hive考试题

10. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是__________一次写入，多次读写。1.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤中进行的？2.为数据的总体分布建模，把多维空间划分成组属于数

overfit同步小助手 2023-06-28 11:04:55 0 收藏

python hdfs远程连接以及上传文件，读取文件内容，删除文件

python hdfs远程连接以及上传，读取，删除文件

overfit同步小助手 2023-06-28 09:04:27 0 收藏

大数据相关概念了解

Apache Hadoop软件库是一个框架，允许使用简单的编程模型在计算机集群之间对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台计算机，每台计算机都提供本地计算和存储。库本身不是依靠硬件来提供高可用性，而是旨在检测和处理应用程序层的故障，因此在计算机群集（每台计算机都可能容易出现故障）之

overfit同步小助手 2023-06-28 06:03:41 0 收藏

大数据大作业（课程设计）

本课题为信息爬取字数及可视化，首先使用Python编程爬取了凤凰网门户网站新闻栏目22/7/26—7/28三天内的新闻信息，其次，将爬取的新闻整合为一个文件，然后使用Python编程对文件进行分词处理并且可以获取词云，接下来将该文件上传至hadoop平台，利用MapReduce框架编程完成了字数统计

overfit同步小助手 2023-06-28 02:04:22 0 收藏

Hive（番外）：Hive可视化工具IntelliJ IDEA

Sublime、Emacs 、EditPlus、UltraEdit、Visual Studio Code等有些不支持作为客户端连接Hive服务，但是支持SQL语法环境，那就再编辑器中开发SQL,复制到Hive CLI执行；IntelliJ IDEA、DataGrip、Dbeaver、SQuirre

overfit同步小助手 2023-06-28 00:04:25 0 收藏

数据同步工具DataX、Sqoop、Maxwell、Canal

overfit同步小助手 2023-06-27 19:04:22 0 收藏

Hadoop的shuffle过程及调优

今天这章，我们详细介绍了 Shuffle 过程，关注 Shuffle 过程的性能对整个 MR 作业的性能调优至关重要。经过这章的介绍，我们能够掌握 Shuffle 过程的关键技术点，虽然还不算深入。同时，我们介绍了常见的参数以及调优方法，希望能够在实际应用中不断的尝试、总结，写出性能最佳的任务。

overfit同步小助手 2023-06-27 16:04:42 0 收藏

分布式存储与并行处理环境配置：Hadoop、HBase和Spark等

本文介绍Linux系统中配置Hadoop、HBase和Spark环境，包括安装Java运行环境、下载安装包、进行配置和测试。通过这种方式，可以搭建一个强大的分布式计算环境，用于处理大规模数据集。为了成功配置Hadoop、HBase和Spark环境，需要理解它们之间的关系和各自的组件。

overfit同步小助手 2023-06-27 08:04:14 0 收藏

Hadoop实训任务3：HDFS和MapReduce综合操作

overfit同步小助手 2023-06-27 02:04:02 0 收藏