大数据 Hadoop - overfit.cn

hadoop的安装与配置

主机：master（192.168.10.3）从机：slave0（192.168.10.4）从机：slave1（192.168.10.5）

overfit同步小助手 2024-06-07 02:03:18 0 收藏

Hive SQL的各种join总结

join时的最后一个表会通过reducer流式传输，并在其中缓冲之前的其他表，因此，将大表放置在最后有助于减少reducer阶段缓存数据所需要的内存。包含左、右两个表的全部行，不管另外一边的表中是否存在与它们匹配的行在功能上，它等价于对这两个数据集合分别进行左外连接和右外连接，然后再使用。左表数据

overfit同步小助手 2024-06-06 23:03:42 0 收藏

大数据之Hive:regexp_extract函数案例

符号含义实列做为转意，即通常在"/"后面的字符不按原来意义解释如" * “匹配它前面元字符0次或多次，/a*/将匹配a,aa,aaa，加了”/"后，/a/* /将只匹配"a* "匹配任何一个字符匹配一个输入或一行的开头/^a/匹配"an A"，而不匹配"An a"匹配一个输入或一行的结尾/a$/匹配

overfit同步小助手 2024-06-06 21:03:38 0 收藏

一篇文章教会你如何搭建hive数据库

（此图为Apache Hive官网的截图，具体网址为Hive是基于Hadoop的数据仓库工具，可以用来对HDFS中存储的数据进行查询和分析。Hive能够将HDFS上结构化的数据文件映射为数据库表，并提供SQL查询功能，将SQL语句转变成MapReduce任务来执行。Hive通过简单的SQL语句实现快

overfit同步小助手 2024-06-06 20:03:43 0 收藏

Hadoop平台安装及运行————详细版搭建流程

如果已经存在/output 目录，就要先删除/output目录，再执行上述命令。另外，只要运行过 HDFS，Hadoop 的工作目录（本书设置为/usr/local/src/hadoop/tmp）就会有数据，如果需要重新格式化，则在格式化之前一定要先删除工作目录下的数据，否则格式化时会出问题。

overfit同步小助手 2024-06-06 09:03:40 0 收藏

Hive 基本操作命令与介绍

Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言HiveQL来对存储在Hadoop集群中的数据进行查询和分析。

overfit同步小助手 2024-06-06 07:03:50 0 收藏

Educoder中Hive综合应用案例——用户学历查询

Hive综合应用案例——用户学历查询

overfit同步小助手 2024-06-06 02:03:34 0 收藏

DBeaver连接含有Kerberos认证的集群的Hive表

以DBeaver为例，连接含有Kerberos认证的集群的Hive表。

overfit同步小助手 2024-06-06 01:03:43 0 收藏

计算机毕业设计Python+Spark知识图谱高考志愿推荐系统高考数据分析高考可视化高考大数据大数据毕业设计

overfit同步小助手 2024-06-05 23:03:45 0 收藏

hive中struct相关函数总结

2、named_struct(name1, value1, name2, value2, …)：创建一个 Named Struct 对象，由多个名称和对应的值组成。1、struct(field1, field2, …)：创建一个 Struct 对象，由多个字段组成。如何将上述struct类型的数据转

overfit同步小助手 2024-06-05 10:03:14 0 收藏

大数据面试题 —— Hive

（1）承UDF或者UDAF或者UDTF，实现特定的方法；（2）打成jar包，上传到服务器（3）执行命令add jar路径，目的是将 jar 包添加到 hive 中create temporary function 函数名 as "自定义函数全类名"（5）在select中使用 UDF 函数。

overfit同步小助手 2024-06-05 09:03:50 0 收藏

hive 之 insert into 和 insert overwrite 的区别和用法（实战）

hive 之 insert into 和 insert overwrite 的区别和用法

overfit同步小助手 2024-06-05 08:03:56 0 收藏

Hive连接方式（本文梳理与datagrip连接）

1.确保HIve已经正确安装完毕，如已正确成功安装Hive，随时随地输入Hive启动即可首先要确保集群成功启动，否则hive会failed；2.启动成功之后，就可以做Hive的相关操作了，出现以下操作 -------成功！

overfit同步小助手 2024-06-05 08:03:42 0 收藏

Hive运行错误

查询hadoop日子：/bin/bash: /bin/java: No such file or directory。删除一个文件一个目录: derby.log和metastore_db。注意：用hadoop的完整地址，不能使用。

overfit同步小助手 2024-06-05 06:03:53 0 收藏

Hadoop的集群搭建

我使用的是Hadoop3.1.1版本，连接https://archive.apache.org/dist/hadoop/common/，在这里可以找到所有的Hadoop版本，JDK使用的是1.8，我在阿里云上租了五台服务器，具体怎么租可以字型搜索，几毛钱一个小时，不用按小时，按抢占式就可以满足需求，

overfit同步小助手 2024-06-05 03:03:54 0 收藏

基于centos7的hadoop伪分布式spark+scala（详细教程）

准备活动：需要scala和spark安装包。

overfit同步小助手 2024-06-04 19:03:41 0 收藏

MapReduce分区机制（Hadoop）

mapreduce分区机制

overfit同步小助手 2024-06-04 18:03:29 0 收藏

Hadoop完全分布式集群搭建

另外，只要运行过 HDFS，Hadoop 的工作目录（本书设置为/usr/local/src/hadoop/tmp）就会有数据，如果需要重新格式化，则在格式化之前一定要先删除工作目录下的数据，否则格式化时会出问题。可以看出 HDFS 的数据保存在/usr/local/src/hadoop/df

overfit同步小助手 2024-06-04 13:03:33 0 收藏

Hadoop 的预制菜溯源预测系统设计与实现

通过给预制菜添加唯一识别编码，完善预制菜加工信息的添加识别，规范预制菜溯源过程中所出现的信息，如质检报告、运输报告等，建立预制菜质量追溯数据库，实现食用预制菜全生产过程的可溯源性。对预制菜的销售商来说，这种可靠的、可追溯质量的预制菜能让消费者有更高的认可度，提高消费者的购买意愿，提高商品的市场价值；

overfit同步小助手 2024-06-04 10:03:45 0 收藏

Mac 配置Hadoop、spark、Scala、jdk

注意：如果后面有进程没有启动成功时，切记查看进程（在安装目录下的 logs 目录），然后有关没有匹配的目录类型的日志报错的话，多半是在最开始配置中有错误然后没有重新生成对应的目录及文件！所以重新执行此命令大概率就解决了。下载安装（此用到的是2.12版本)

overfit同步小助手 2024-06-04 10:03:41 0 收藏