Hadoop - overfit.cn

Hadoop3：集群搭建及常用命令与shell脚本整理（入门篇，从零开始搭建）

Hadoop

overfit同步小助手 2024-05-24 08:04:07 0 收藏

大数据技术原理及应用课实验6 :熟悉Hive的基本操作

在本次实验中，理解学习了Hive作为数据仓库在Hadoop体系结构中的角色以及学习了如何使用常用的HiveQL。具体如下：学习了创建内部表、从文件向表中导入数据、利用Hive自动分区特性向分区表dividends各个分区中插入对应数据、查询指定的内容等等。还有在实验中有遇到过一些问题，如在启动 Hi

overfit同步小助手 2024-05-24 08:03:37 0 收藏

伪分布式hadoop+spark+scala 超详细搭建

步骤一：将/root/runajian下的hadoop-2.7.7.tar.gz压缩包解压到/opt目录下，并将解压文件改名为hadoop。复制/opt/hadoop/etc/hadoop/mapred-site.xml.tmplate 名为mapred-site.xml。步骤一：安装命令如下，将安

overfit同步小助手 2024-05-24 07:03:42 0 收藏

Apache Hive

将SQL语句翻译成MapReduce程序，为用户提供分布式SQL计算的能力。

overfit同步小助手 2024-05-24 05:04:06 0 收藏

在k8s中部署hadoop后的使用，包括服务端及客户端（客户端的安装及与k8s服务的对接）

在和这两篇文章中，说明了如何通过helm和k8s部署hadoop，接下来就看怎么在部署好的集群中使用hadoop了。

overfit同步小助手 2024-05-24 04:04:04 0 收藏

【大数据】分布式文件系统HDFS

一文快速聊明白HDFS的核心概念

overfit同步小助手 2024-05-24 03:03:48 0 收藏

大数据技术12：Hive简介及核心概念

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。这样，熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了，Hive出现后大大降低了Hadoop的使用难度，迅速得到开发者和企业的追

overfit同步小助手 2024-05-24 01:04:19 0 收藏

认识Hadoop

Hadoop由Apache基金会开发，开源的、可靠的、可拓展的、用于分布式计算的分布式系统基础架构或框架。MapReduce是Hadoop的核心计算框架——是用于大规模数据集（大于1TB）并行运算的编程模型，主要包括Map（映射）和Reduce（规约）两个阶段。MapReduce的核心思想是—

overfit同步小助手 2024-05-24 01:04:14 0 收藏

HDFS常用操作以及使用Spark读取文件系统数据

在HDFS中的“/user/hadoop”目录下，创建子目录input，把HDFS中“/user/hadoop”目录下的test.txt文件，复制到“/user/hadoop/input”目录下；删除HDFS中“/user/hadoop”目录下的test.txt文件，删除HDFS中“/user/ha

overfit同步小助手 2024-05-24 01:04:03 0 收藏

Hive主要介绍

hive是基于 Hadoop平台操作 HDFS 文件的插件工具可以将结构化的数据文件映射为一张数据库表可以将 HQL 语句转换为 MapReduce 程序1.hive 是由驱动器组成，驱动器主要由4个组件组成（解析器、编译器、优化器、执行器）2.hive本身不存储数据，数据是存储在hdfs上3.hi

overfit同步小助手 2024-05-23 23:04:35 0 收藏

Hadoop 安装及目录结构

【1】各个服务组件逐一启动/停止#分别启动/停止HDFS组件#启动/停止YARN【2】各个模块分开启动/停止（配置ssh是前提）#整体启动/停止HDFS start-dfs.sh/stop-dfs.sh #整体启动/停止YARN start-yarn.sh/stop-yarn.sh。

overfit同步小助手 2024-05-23 23:04:24 0 收藏

VMware centos7下通过idea实现Hadoop MapReduce经典案例之一的TopN案例

一：案例需求现假设有数据文件num.txt，现要求使用MapReduce技术提取上述文本中最大的5个数据，并最终将结果汇总到一个文件中。先设置MapReduce分区为1，即ReduceTask个数一定只有一个。我们需要提取TopN，即全局的前N条数据，不管中间有几个Map、Reduce，最终只能有一

overfit同步小助手 2024-05-23 21:04:42 0 收藏

【Hadoop】DataNode 数据盘进行磁盘DiskBalancer

DiskBalancer是一个命令行工具，可在DataNode的所有磁盘上均匀分发数据。此工具对给定的DataNode进行操作，并将块从一个磁盘移动到当前DataNode的另一个磁盘。DiskBalancer通过创建计划并继续在DataNode上执行该计划。计划是一组陈述，描述了两个磁盘之间应该

overfit同步小助手 2024-05-23 21:04:36 0 收藏

基于大数据+Hadoop的豆瓣电子图书推荐系统设计和实现

随着信息技术的飞速发展，特别是互联网和移动通信技术的普及，数字化阅读逐渐成为人们获取知识和信息的重要方式。在这样的背景下，电子图书以其便捷性和丰富性受到了广泛欢迎。随着电子图书市场的不断扩大，书籍的种类和数量也在急剧增加，这为用户挑选书籍带来了挑战。为了解决信息过载的问题，个性化推荐系统应运而生，并

overfit同步小助手 2024-05-23 21:04:01 0 收藏

Hadoop简介

hadoop简介

overfit同步小助手 2024-04-11 12:03:49 0 收藏

hive-sql查询结果保留小数点两位小数

overfit同步小助手 2024-04-11 04:03:15 0 收藏

Hadoop平台搭建（一）

Hadoop平台的搭建需要一个主节点，多个副节点。在centos7中创建主机Master后，克隆主机为slave1与slave2，为保证从Hadoop平台的稳定选择完整克隆。克隆机slave1、slave2后的主机名依旧是Master，所以要修改主机名。由于slave1为Master的克隆机故uui

overfit同步小助手 2024-04-11 00:03:22 0 收藏

启动pyspark时：/usr/local/spark/bin/pyspark: 行 45: python: 未找到命令

启动pyspark时：/usr/local/spark/bin/pyspark: 行 45: python: 未找到命令的解决方法

overfit同步小助手 2024-04-10 18:03:55 0 收藏

大数据分析设计-基于Hadoop运动项目推荐系统

一、项目介绍随着生活水平的提高,人们的健康意识越来越强。但是目前人们日常运动持续性还是比较差，为了改变这一现状。我们研究设计了基于Hadoop的运动推荐项目系统。系统通过统计分析用户运动信息，获取大众用户的运动习惯，设计人们感兴趣的运动模式，以提高人们的运动积极性。系统包含了体育项目信息、项目分类、

overfit同步小助手 2024-04-10 18:03:52 0 收藏

Hadoop在ubuntu虚拟机上的伪分布式部署|保姆级教程

2.经后续测试发现问题，虽然已经为ubuntu系统设置了java的环境变量，但hadoop实际运行时仍会出现找不到java-jdk的现象，故再对hadoop的环境文件进行修改，此外，该文件还包括启动参数、日志、pid文件目录等信息。Hadoop和与之相关的很多工具都是通过java语言编写的，并且很多

overfit同步小助手 2024-04-10 16:03:51 0 收藏