大数据 Hadoop - overfit.cn

csv数据导入hive表

overfit同步小助手 2024-05-27 21:03:42 0 收藏

冗余磁盘阵列（RAID）与Hadoop分布式文件系统（HDFS）

介绍数据存储对于现代计算的重要性，并指出在不同的需求下，冗余磁盘阵列（RAID）和Hadoop分布式文件系统（HDFS）作为两种不同的数据存储技术各自的优势。

overfit同步小助手 2024-05-27 19:03:45 0 收藏

Hive-源码分析一条hql的执行过程

1、用户在hive客户端输入hql2、进行中断操作，终止正在运行的mr作业3、解析用户在hive客户端输入的hql（将hql按照字符一个一个处理，遇到 ";" 就会将前面的处理成一个hql 放入列表中）4、循环执行hql列表中的每一条hql5、从sql语句中剥离注释，并去掉头尾空白符并按照 '\\

overfit同步小助手 2024-05-27 19:03:22 0 收藏

HDFS 跨集群数据同步（hive,hadoop）

echo "${db_name}.${table_name} ${part_date} 迁移开始"echo "${db_name}.${table_name} ${part_date} 迁移完成"两个不同的HDFS 集群数据迁移( A集群的数据 -> B 集群) 采用的是 SHELL 脚本。#计算两

overfit同步小助手 2024-05-27 18:03:42 0 收藏

Hadoop完全分布式搭建（超详细，傻瓜式安装）

Hadoop完全分布式安装配置。

overfit同步小助手 2024-05-27 13:03:25 0 收藏

Hadoop 之 HDFS命令

HDFS（Hadoop Distributed File System）是Hadoop生态系统中的一个核心组件，它是一个高度容错性的分布式文件系统，设计用于在廉价硬件上存储大规模数据集。HDFS的架构采用主从（Master/Slave）结构模型，包含一个。

overfit同步小助手 2024-05-27 10:03:51 0 收藏

基于Hadoop的港口物流大数据应用研究

本篇摘要旨在探讨基于Hadoop的港口物流大数据应用研究。随着全球贸易的不断发展和港口物流的复杂化，港口物流大数据处理和分析面临着巨大挑战。如何有效地处理海量的港口物流数据、挖掘其中的潜在价值成为一个关键问题。本研究基于Hadoop大数据处理框架，旨在应用其强大的分布式计算能力和存储优势，解决港口物

overfit同步小助手 2024-05-27 10:03:36 0 收藏

关于在hadoop中搭建HBase时创建表一直显示“Master is initializing”的问题

今天帮室友解决了这个问题，对于我个人来说感触还是蛮深刻的，毕竟这个东西真的弄得要崩溃了，本想着去找老师问问，但是又想自己再挣扎一下下，果然成功了，这简直就像是中了彩票一样哈哈哈哈~（ps：在写这个value时注意与之前在hadoop当中的core-site.xml中的那个hdfs地址对应，同时将这个

overfit同步小助手 2024-05-27 09:03:43 0 收藏

安装伪分布式Hadoop

步骤一：安装 JDK安装命令如下，将安装包解压到/usr/local/src/目录下。

overfit同步小助手 2024-05-27 08:03:46 0 收藏

hadoop离线与实时的电影推荐系统-计算机毕业设计源码10338

管理员：首页、网站管理（轮播图、公告消息）人员管理（管理员、普通用户）内容管理（电影资讯、资讯分类）模块管理（电影信息、电影类型）个人信息；用户：首页、公告消息、电影资讯、电影信息管理等

overfit同步小助手 2024-05-27 03:03:30 0 收藏

Hive中UNION ALL和UNION的区别

Hive官方提供了一种联合查询的语法，原名为Union Syntax，用于联合两个表的记录进行查询，此处的联合和join是不同的，join是将两个表的字段拼接到一起，而union是将两个表的记录拼接在一起。换言之， join是用于左右拼接，而union是用于上下拼接。联合查询方式UNIONUNION

overfit同步小助手 2024-05-27 00:03:56 0 收藏

如何8步完成hadoop单机安装

Hadoop是一个开源框架，用于存储和处理大规模数据集。

overfit同步小助手 2024-05-26 23:03:44 0 收藏

大数据技术之Hadoop-3.3.4高可用安装部署操作文档

overfit同步小助手 2024-05-26 22:05:00 0 收藏

Hive的索引

Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下，分桶和索引常常是优于分区的。而分桶由于SMB

overfit同步小助手 2024-05-26 20:03:53 0 收藏

伪分布式搭建Hadoop中消失的“DataNode”

我们在搭建hadoop中都会出现一些小小的问题，在伪分布式安装完Hadoop后，jps查看进程的时候缺三少两，今天解决的问题是6个进程中缺少了DataNode。

overfit同步小助手 2024-05-26 19:03:58 0 收藏

【Hive SQL 每日一题】行列转换

列，分别代表每名同学对应的各科成绩，我们只需要在统计时加入判断条件即可，每列只固定求某科的成绩，如果不是则用。解决问题的方式有许多种，但往往我们需要去注重学习解决问题的思路，希望本文对你有所帮助。行转列操作，其实就是将行数据通过列的方式进行查询展示而已，这里行转列数据共有。会返回两个参数，其中第一个

overfit同步小助手 2024-05-26 13:04:07 0 收藏

Hadoop 常用端口号

请注意，这些是Hadoop组件的标准默认端口，实际部署过程中可以根据需要在配置文件中修改。同时，不同版本的Hadoop可能对某些端口有所调整，请以具体部署环境的实际配置为准。

overfit同步小助手 2024-05-26 09:03:57 0 收藏

hive中split函数相关总结

split 函数一直再用，居然发现没有总结，遂补充一下；

overfit同步小助手 2024-05-26 09:03:44 0 收藏

SparkSession介绍

【代码】SparkSession介绍。

overfit同步小助手 2024-05-26 08:04:02 0 收藏

Hadoop伪分布式集群的搭建

本文是基于jdk8和CentOS6配置的Hadoop伪分布式集群，步骤详细，希望能帮助到给位小伙伴们，有什么不足的请多多包含。

overfit同步小助手 2024-05-26 08:03:57 0 收藏