大数据 Hadoop - overfit.cn

Hive &mysql

Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce

overfit同步小助手 2024-05-25 02:04:08 0 收藏

大数据分析设计-基于Hadoop运动项目推荐系统

2.2功能需求分析运动项目推荐系统的主要目的分为三个。首先：可以通过该系统可以很好的整合和发布体育项目的相关信息。以前通过传统的项目查询以及体验反馈的方式有个最大的问题就是信息查询、反馈方式繁琐，而且各种信息容易丢失，有了这样一个运动项目推荐系统，那么则可以很容易的把所有的运动项目信息都放到数据库中

overfit同步小助手 2024-05-25 00:03:51 0 收藏

hadoop 3 完全分布式+历史服务器

overfit同步小助手 2024-05-24 22:04:07 0 收藏

[2021]Zookeeper getAcl命令未授权访问漏洞概述与解决

今天在漏洞扫描的时候蹦出来一个zookeeper的漏洞问题，即使是非zookeeper的节点，或者是非集群内部节点，也可以通过nc扫描2181端口，获取极多的zk信息。关于漏洞的详细描述参考apache zookeeper官方概述：CVE-2018-8012: Apache ZooKeeper Qu

overfit同步小助手 2024-05-24 22:03:52 0 收藏

hive 简简单单易如反掌

1. 实验一：Linux操作系统环境设置实验环境本实验所需之主要资源环境：资源环境服务器集群单节点，机器最低配置：双核 CPU、8GB 内存、100G 硬盘运行环境 CentOS 7.4 服务和组件服务和组件根据实验需求安装。

overfit同步小助手 2024-05-24 14:03:50 0 收藏

hive的简单认识

今天写的比较急，先凑活看，有空的话再完善一下

overfit同步小助手 2024-05-24 11:04:08 0 收藏

Hadoop3：集群搭建及常用命令与shell脚本整理（入门篇，从零开始搭建）

Hadoop

overfit同步小助手 2024-05-24 08:04:07 0 收藏

大数据技术原理及应用课实验6 :熟悉Hive的基本操作

在本次实验中，理解学习了Hive作为数据仓库在Hadoop体系结构中的角色以及学习了如何使用常用的HiveQL。具体如下：学习了创建内部表、从文件向表中导入数据、利用Hive自动分区特性向分区表dividends各个分区中插入对应数据、查询指定的内容等等。还有在实验中有遇到过一些问题，如在启动 Hi

overfit同步小助手 2024-05-24 08:03:37 0 收藏

伪分布式hadoop+spark+scala 超详细搭建

步骤一：将/root/runajian下的hadoop-2.7.7.tar.gz压缩包解压到/opt目录下，并将解压文件改名为hadoop。复制/opt/hadoop/etc/hadoop/mapred-site.xml.tmplate 名为mapred-site.xml。步骤一：安装命令如下，将安

overfit同步小助手 2024-05-24 07:03:42 0 收藏

Apache Hive

将SQL语句翻译成MapReduce程序，为用户提供分布式SQL计算的能力。

overfit同步小助手 2024-05-24 05:04:06 0 收藏

在k8s中部署hadoop后的使用，包括服务端及客户端（客户端的安装及与k8s服务的对接）

在和这两篇文章中，说明了如何通过helm和k8s部署hadoop，接下来就看怎么在部署好的集群中使用hadoop了。

overfit同步小助手 2024-05-24 04:04:04 0 收藏

【大数据】分布式文件系统HDFS

一文快速聊明白HDFS的核心概念

overfit同步小助手 2024-05-24 03:03:48 0 收藏

大数据技术12：Hive简介及核心概念

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。这样，熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了，Hive出现后大大降低了Hadoop的使用难度，迅速得到开发者和企业的追

overfit同步小助手 2024-05-24 01:04:19 0 收藏

认识Hadoop

Hadoop由Apache基金会开发，开源的、可靠的、可拓展的、用于分布式计算的分布式系统基础架构或框架。MapReduce是Hadoop的核心计算框架——是用于大规模数据集（大于1TB）并行运算的编程模型，主要包括Map（映射）和Reduce（规约）两个阶段。MapReduce的核心思想是—

overfit同步小助手 2024-05-24 01:04:14 0 收藏

HDFS常用操作以及使用Spark读取文件系统数据

在HDFS中的“/user/hadoop”目录下，创建子目录input，把HDFS中“/user/hadoop”目录下的test.txt文件，复制到“/user/hadoop/input”目录下；删除HDFS中“/user/hadoop”目录下的test.txt文件，删除HDFS中“/user/ha

overfit同步小助手 2024-05-24 01:04:03 0 收藏

Hive主要介绍

hive是基于 Hadoop平台操作 HDFS 文件的插件工具可以将结构化的数据文件映射为一张数据库表可以将 HQL 语句转换为 MapReduce 程序1.hive 是由驱动器组成，驱动器主要由4个组件组成（解析器、编译器、优化器、执行器）2.hive本身不存储数据，数据是存储在hdfs上3.hi

overfit同步小助手 2024-05-23 23:04:35 0 收藏

Hadoop 安装及目录结构

【1】各个服务组件逐一启动/停止#分别启动/停止HDFS组件#启动/停止YARN【2】各个模块分开启动/停止（配置ssh是前提）#整体启动/停止HDFS start-dfs.sh/stop-dfs.sh #整体启动/停止YARN start-yarn.sh/stop-yarn.sh。

overfit同步小助手 2024-05-23 23:04:24 0 收藏

VMware centos7下通过idea实现Hadoop MapReduce经典案例之一的TopN案例

一：案例需求现假设有数据文件num.txt，现要求使用MapReduce技术提取上述文本中最大的5个数据，并最终将结果汇总到一个文件中。先设置MapReduce分区为1，即ReduceTask个数一定只有一个。我们需要提取TopN，即全局的前N条数据，不管中间有几个Map、Reduce，最终只能有一

overfit同步小助手 2024-05-23 21:04:42 0 收藏

【Hadoop】DataNode 数据盘进行磁盘DiskBalancer

DiskBalancer是一个命令行工具，可在DataNode的所有磁盘上均匀分发数据。此工具对给定的DataNode进行操作，并将块从一个磁盘移动到当前DataNode的另一个磁盘。DiskBalancer通过创建计划并继续在DataNode上执行该计划。计划是一组陈述，描述了两个磁盘之间应该

overfit同步小助手 2024-05-23 21:04:36 0 收藏

基于大数据+Hadoop的豆瓣电子图书推荐系统设计和实现

随着信息技术的飞速发展，特别是互联网和移动通信技术的普及，数字化阅读逐渐成为人们获取知识和信息的重要方式。在这样的背景下，电子图书以其便捷性和丰富性受到了广泛欢迎。随着电子图书市场的不断扩大，书籍的种类和数量也在急剧增加，这为用户挑选书籍带来了挑战。为了解决信息过载的问题，个性化推荐系统应运而生，并

overfit同步小助手 2024-05-23 21:04:01 0 收藏