Hadoop - overfit.cn

大数据面试题 —— Hive

（1）承UDF或者UDAF或者UDTF，实现特定的方法；（2）打成jar包，上传到服务器（3）执行命令add jar路径，目的是将 jar 包添加到 hive 中create temporary function 函数名 as "自定义函数全类名"（5）在select中使用 UDF 函数。

overfit同步小助手 2024-06-05 09:03:50 0 收藏

hive 之 insert into 和 insert overwrite 的区别和用法（实战）

hive 之 insert into 和 insert overwrite 的区别和用法

overfit同步小助手 2024-06-05 08:03:56 0 收藏

Hive连接方式（本文梳理与datagrip连接）

1.确保HIve已经正确安装完毕，如已正确成功安装Hive，随时随地输入Hive启动即可首先要确保集群成功启动，否则hive会failed；2.启动成功之后，就可以做Hive的相关操作了，出现以下操作 -------成功！

overfit同步小助手 2024-06-05 08:03:42 0 收藏

Hive运行错误

查询hadoop日子：/bin/bash: /bin/java: No such file or directory。删除一个文件一个目录: derby.log和metastore_db。注意：用hadoop的完整地址，不能使用。

overfit同步小助手 2024-06-05 06:03:53 0 收藏

Hadoop的集群搭建

我使用的是Hadoop3.1.1版本，连接https://archive.apache.org/dist/hadoop/common/，在这里可以找到所有的Hadoop版本，JDK使用的是1.8，我在阿里云上租了五台服务器，具体怎么租可以字型搜索，几毛钱一个小时，不用按小时，按抢占式就可以满足需求，

overfit同步小助手 2024-06-05 03:03:54 0 收藏

基于centos7的hadoop伪分布式spark+scala（详细教程）

准备活动：需要scala和spark安装包。

overfit同步小助手 2024-06-04 19:03:41 0 收藏

MapReduce分区机制（Hadoop）

mapreduce分区机制

overfit同步小助手 2024-06-04 18:03:29 0 收藏

Hadoop完全分布式集群搭建

另外，只要运行过 HDFS，Hadoop 的工作目录（本书设置为/usr/local/src/hadoop/tmp）就会有数据，如果需要重新格式化，则在格式化之前一定要先删除工作目录下的数据，否则格式化时会出问题。可以看出 HDFS 的数据保存在/usr/local/src/hadoop/df

overfit同步小助手 2024-06-04 13:03:33 0 收藏

Hadoop 的预制菜溯源预测系统设计与实现

通过给预制菜添加唯一识别编码，完善预制菜加工信息的添加识别，规范预制菜溯源过程中所出现的信息，如质检报告、运输报告等，建立预制菜质量追溯数据库，实现食用预制菜全生产过程的可溯源性。对预制菜的销售商来说，这种可靠的、可追溯质量的预制菜能让消费者有更高的认可度，提高消费者的购买意愿，提高商品的市场价值；

overfit同步小助手 2024-06-04 10:03:45 0 收藏

Mac 配置Hadoop、spark、Scala、jdk

注意：如果后面有进程没有启动成功时，切记查看进程（在安装目录下的 logs 目录），然后有关没有匹配的目录类型的日志报错的话，多半是在最开始配置中有错误然后没有重新生成对应的目录及文件！所以重新执行此命令大概率就解决了。下载安装（此用到的是2.12版本)

overfit同步小助手 2024-06-04 10:03:41 0 收藏

Hadoop与hdfs的认知讲解

HDFS（Hadoop Distributed File System）是Hadoop项目的一个子项目，也是Hadoop的核心组件之一。它是一个分布式文件系统，设计用于存储大型数据，如TB和PB级别的数据。文件分块存储：在HDFS中，文件在物理上是分块存储的。块的大小可以通过配置参数（dfs.blo

overfit同步小助手 2024-06-04 10:03:13 0 收藏

ubuntukylin-22.04.1安装Hive、MySQL、配置Hive及Hive连接MySQL操作

ubuntu系统下安装Hive、MySQL、配置Hive及Hive连接MySQL详细操作（附过程图）

overfit同步小助手 2024-06-04 01:03:33 0 收藏

Hive on Spark 配置

Hive引擎包括：MR（默认）、tez、spark。Hive on Spark：Hive既作为存储元数据又负责 SQL 的解析优化，语法是 HQL 语法，执行引擎变成了 Spark，Spark 负责采用 RDD 执行。Spark on Hive：Hive 只作为存储元数据，Spark负责SQL解析优

overfit同步小助手 2024-06-03 20:04:42 0 收藏

阿里云ECS上搭建Hadoop分布式环境

访问→ 注册登录账号→找到上述访问界面中的（位置如图所示）→点击下载→下载完成后，查阅本机下载位置（接下来会需要）在机房电脑，文件系统访问\\PC-008\BC，将jre-8u261-linux-x64.tar.gz文件拷贝到自己电脑中。

overfit同步小助手 2024-06-03 13:02:04 0 收藏

Hadoop集群中如何通过web访问HDFS（以及上传下载测试）

一共有几小部分组成，但是前提你得先在集群系统的。在输入命令后，在下方找到。，后面的就是你的ip地址。

overfit同步小助手 2024-06-03 12:03:21 0 收藏

【大数据·Hadoop】从词频统计由浅入深介绍MapReduce分布式计算的设计思想和原理

MapReduce的算法核心思想是：分治学过算法的同学应该会学到分治算法，所谓分治，就是把原问题分解为规模更小的问题，进行处理，最后将这些子问题的结果合并，就可以得到原问题的解。MapReduce这种分布式计算框架的核心就是：分治。上图是MapReduce的处理流程图，可以看到，MapReduce的

overfit同步小助手 2024-06-03 11:03:43 0 收藏

hive正则函数regexp_extract()提取字符串

分析：将a.STEP_ID 按照[_/,;]来分割，如果匹配上了就提取[_/,;]右侧的字符串，没有的话返回‘NA’;例子：nvl(REGEXP_SUBSTR('005/06','[^_/,;本例中分隔符之前只有数字和字母，且分隔符至多一个。

overfit同步小助手 2024-06-03 11:03:38 0 收藏

Hive常见的日期函数

UNIX 时间戳转日期语法：fom_unixtime(bigint unixtime[, string format]);返回类型：string。

overfit同步小助手 2024-06-03 09:04:11 0 收藏

Hive中文乱码的解决方法

解决Hive中文乱码问题

overfit同步小助手 2024-06-03 09:03:40 0 收藏

【大数据篇】Hadoop：大数据处理的核心基石

Hadoop决定创建一个由许多小伙伴组成的探险队，每个小伙伴都擅长处理不同类型的数据。他找到了擅长存储大量数据的“HDFS”（Hadoop Distributed File System），让它负责建造一个巨大的数据仓库，用来存放所有收集到的数据。接着，Hadoop又找到了擅长并行处理的“MapRe

overfit同步小助手 2024-06-02 21:03:46 0 收藏