大数据 Hadoop - overfit.cn

Eclipse连接Hadoop（HDFS）

overfit同步小助手 2023-05-30 09:03:49 0 收藏

hive基础选择题

1.下列关于Hive特点总结正确的选项是（）A Hive支持自由的扩展集群的规模，只需要重启服务即可B Hive支持自定义函数，用户可以根据自己的需求去定义函数C Hive SQL执行时，需要避免节点出现问题D Hive 适合处理小批量数据【B】A. 错误，Hive一般不需要重启服务就可以扩展集群B

overfit同步小助手 2023-05-30 08:04:03 0 收藏

Hadoop完全分布式搭建

搭建完全分布式，有什么问题留言

overfit同步小助手 2023-05-30 06:03:43 0 收藏

HBase中master正常启动，自动关闭——原因以及解决办法

regionserver一直在运行，而master启动之后，过一会自动停止，因为master停止，所以也无法访问hbase管理web页面。

overfit同步小助手 2023-05-30 03:04:01 0 收藏

Hadoop高频面试题

一、HDFS集群架构（HDFS组织架构）二、HDFS数据写流程三、HDFS数据读流程四、MapTask和ReduceTask工作机制（也可回答MapReduce工作原理）五、小文件过多会有什么危害，如何避免六、hadoop（mapReduce）数据倾斜问题七、YARN集群的架构和工作原理八、YA

overfit同步小助手 2023-05-29 19:04:19 0 收藏

Hadoop HDFS的API操作

IDEA创建Maven工程，由于版本不一样，这里我使用2022.3版本，有一个将junit加入classpath的设置，还有将各种目录设置：Mark Directory as ：src/main/java 关联为 Sources Root;在HDFS上面进行性文件a.txt的再一次校验值***，将1

overfit同步小助手 2023-05-29 05:03:25 0 收藏

Hadoop伪分布式配置教程

【代码】Hadoop伪分布式配置教程。

overfit同步小助手 2023-05-29 01:03:39 0 收藏

用三台云服务器搭建hadoop完全分布式集群

本次利用云服务器搭建Hadoop集群，在开始之前，你需要3台云服务器，可以在同一家购买也可以在不同家购买。此次教程采用百度云产品，可以换不同账号新手免费试用几个月，具体配置如下：（三）主机映射3个虚拟机均需要修改hosts文件使其生效测试三台机器,是否ping通2.选择时区3.时间同步协议NTPm

overfit同步小助手 2023-05-28 22:04:03 0 收藏

从‘discover.partitions‘=‘true‘分析Hive的TBLPROPERTIES

找到了Hive的MetaStore存储的元数据，并且分析出了和表配置相关的运行机理

overfit同步小助手 2023-05-28 21:03:38 0 收藏

大数据之 impala教程

Impala是用于处理存储在Hadoop集群中的大量数据的MPP（大规模并行处理）SQL查询引擎。

overfit同步小助手 2023-05-28 20:04:33 0 收藏

2023大数据面试题+附答案

2023大数据面试题+附答案。

overfit同步小助手 2023-05-28 15:04:28 0 收藏

MapReduce编程——文件的合并与去重

目录一.问题描述二.具体代码三.具体操作一.问题描述对输入的多个文件进行合并，并剔除其中重复的内容，去重后的内容输出到一个文件中。主要思路：根据reduce的过程特性,会自动根据key来计算输入的value集合，把数据作为key输出给reduce,无论这个数据出现多少次，reduce最终结果

overfit同步小助手 2023-05-28 11:04:10 0 收藏

Hadoop大数据开发基础课后答案

Hadoop大数据开发基础课后答案(仅供参考)

overfit同步小助手 2023-05-28 08:05:01 0 收藏

Hive的基本操作之数据导入表

进入所要导数据的表所在的库：hive> select current_database();OKtest2建表hive> create table test_user( > id int, > name string > ) > row f

overfit同步小助手 2023-05-28 03:04:08 0 收藏

Hadoop 环境配置

Hadoop完全分布式集群配置

overfit同步小助手 2023-05-28 03:03:45 0 收藏

23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

hadoop yarn支持内存与CPU两种资源的调度方式。YARN作为一个资源调度器，应该考虑到集群里面每一台机子的计算资源，然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位，具有一定的内存以及CPU资源。在YARN集群中，平衡内

overfit同步小助手 2023-05-27 12:04:12 0 收藏

实验3 - HDFS的管理和使用

hadoop

overfit同步小助手 2023-05-27 06:03:41 0 收藏

Hadoop下载与安装

从http://archive.apache.org/dist/hadoop/core/下载Hadoop-3.0.0，下载二进制压缩包文件：hadoop-3.0.0.tar.gz。https://blog.csdn.net/tototuzuoquan/article/details/79954234

overfit同步小助手 2023-05-26 21:04:07 0 收藏

【hbase】按时间段批量删除hbase数据

背景是华为大数据平台mrs，这里运用到HDFS、Hive、HBase；数据通过接口接入到hbase，用hive创建hbase外部表。需求是某段时间数据有问题，需要删掉重新补入。

overfit同步小助手 2023-05-26 21:03:45 0 收藏

虚拟机本地搭建Hadoop集群教程

本地使用VirtualBox三台虚拟机搭建hadoop集群

overfit同步小助手 2023-05-26 20:04:54 0 收藏