Hadoop

大数据开发面试题【Hive篇】

吐血整理，小编亲身体验

overfit同步小助手 2024-05-31 00:03:55 0 收藏

部署HDFS集群（完全分布式模式、hadoop用户控制集群、hadoop-3.3.4+安装包）

overfit同步小助手 2024-05-30 14:03:46 0 收藏

Hadoop的启动停止命令详解

Hadoop启动命令详解

overfit同步小助手 2024-05-30 14:03:31 0 收藏

大数据Hive中的UDF：自定义数据处理的利器（上）

在大数据技术栈中，扮演着数据仓库的关键角色，它提供了丰富的数据操作功能，并通过类似于SQL的HiveQL语言简化了对Hadoop数据的处理。然而，内置函数库虽强大，却未必能满足所有特定的业务逻辑需求。此时，用户定义函数（UDF）的重要性便凸显出来。Hive UDF）是Hive中的一种扩展机制，它允许

overfit同步小助手 2024-05-30 10:03:52 0 收藏

【大数据】Hadoop 2.X和1.X升级优化对比

一文详解hadoop 2.X版本对于1.X版本做出的优化和升级

overfit同步小助手 2024-05-30 08:03:44 0 收藏

Hbase基础操作Demo（Java版）

HBase Java基础操作样例

overfit同步小助手 2024-05-30 07:03:50 0 收藏

hadoop报错：HADOOP_HOME and hadoop.home.dir are unset. 解决方法

1.下载apache-hadoop-3.1.0-winutils-master。

overfit同步小助手 2024-05-30 03:03:49 0 收藏

Hadoop——HDFS文件系统的Java API操作（上传、下载、查看、删除、创建文件）详细教学

分享一套我整理的面试干货，这份文档结合了我多年的面试官经验，站在面试官的角度来告诉你，面试官提的那些问题他最想听到你给他的回答是什么，分享出来帮助那些对前途感到迷茫的朋友。

overfit同步小助手 2024-05-30 02:03:38 0 收藏

linux搭建hadoop集群

&emsp;&emsp;Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（ Distributed File System），其中一个组件是HDFS（H

overfit同步小助手 2024-05-30 00:03:57 0 收藏

Hive自定义GenericUDF函数

*** 自定义函数：将字符串转换为大写*//*** 初始化函数* @param arguments 函数参数的ObjectInspector数组* @return 函数返回值的ObjectInspector* @throws UDFArgumentException 如果参数数量不正确*/@Over

overfit同步小助手 2024-05-30 00:03:52 0 收藏

Hadoop伪分布式平台搭建

搭建Hadoop伪分布式环境是在单台机器上模拟完整的Hadoop分布式系统，使得所有的Hadoop守护进程（如NameNode、DataNode、ResourceManager、NodeManager等）都在同一台机器上运行。这样可以在一台机器上体验Hadoop的分布式特性，适合学习、测试和开发。

overfit同步小助手 2024-05-29 23:03:46 0 收藏

hadoop大数据原理与应用------初识Hadoop数据集

这样，整个集群就可以协同工作，处理大数据集的计算和存储任务。在执行`start-dfs.sh`之前，需要确保Hadoop的配置文件已经正确设置，包括`hdfs-site.xml`、`core-site.xml`等，并且集群中的所有节点都能够相互通信。在这个例子中，`hadoop-master`、`h

overfit同步小助手 2024-05-29 23:03:42 0 收藏

Hive详解（一篇文章让你彻底学会Hive）

最详细的Hive讲解，一篇既可以学会hive的相关知识。

overfit同步小助手 2024-05-29 22:03:57 0 收藏

使用Hadoop进行模数据去重

使用Hadoop进行数据去重可以有效地处理大规模数据，并且可以通过适当的算法和技术实现高效的去重操作。通过本博客提供的步骤和代码示例，你可以在自己的环境中实现数据去重，并优化处理大规模数据的效率。

overfit同步小助手 2024-05-29 18:03:56 0 收藏

Hadoop上传文件到HDFS的步骤

随着大数据时代的到来，数据存储和处理变得至关重要。Hadoop作为大数据处理的基石，其分布式文件系统HDFS提供了高效、可靠的数据存储方案。本文旨在简要介绍如何使用Hadoop命令行工具将文件上传到HDFS，为大数据处理提供基础支持。1.启动Hadoop集群。

overfit同步小助手 2024-05-29 18:03:37 0 收藏

伪分布式数据库搭建（hadoop+spark+scala）

一，下载JDK安装包官网：https://www.oracle.com/java /technologies /javase-jdk8-downloads.html二，卸载openJDK三，安装JDK四，设置java环境变量命令：vi /etc/profile将master公钥进行公钥认证，实现本机

overfit同步小助手 2024-05-29 16:03:55 0 收藏

Hive集合函数 collect_set 和 collect_list 使用示例

在Hive中， collect_set 和 collect_list 是用于收集数据并将其存储为集合的聚合函数。

overfit同步小助手 2024-05-29 14:03:30 0 收藏

Hadoop集群搭建与初步了解Hive

应用： hadoop fs -put /root/1.txt /dir1 #上传文件 hadoop fs –put /root/dir2 / #上传目录。应用: hadoop fs -rm /initial-setup-ks.cfg #删除文件 hadoop fs -rm -r /dir2 #删除目

overfit同步小助手 2024-05-29 12:03:35 0 收藏

Docker搭建hadoop和spark集群

在宿主机器的浏览器输入0.0.0.0:8080 就可以查看spark集群的运行状况。在宿主机器的浏览器输入0.0.0.0:8080 就可以查看spark集群的运行状况。6.拉取的镜像的环境变量默认配置在/etc/profile中。6.拉取的镜像的环境变量默认配置在/etc/profile中。选择co

overfit同步小助手 2024-05-29 12:03:26 0 收藏

128+8)，对应了4个Split(3。

overfit同步小助手 2024-05-29 10:03:53 0 收藏