大数据 Hadoop - overfit.cn

hive之full outer join（全连接）使用

overfit同步小助手 2024-07-25 21:03:53 0 收藏

hadoop离线与实时的离线与实时的电影推荐系统毕业设计-附源码10338

系统采用了B/S结构，将所有业务模块采用以浏览器交互的模式，选择MySQL作为系统的数据库，开发工具选择My eclipse来进行系统的设计。基本实现了离线与实时的电影推荐系统应有的主要功能模块，本系统有管理员、用户两大功能模块，管理员：首页、网站管理（轮播图、公告消息）人员管理（管理员、普通用户

overfit同步小助手 2024-07-25 20:03:24 0 收藏

hive数据仓库项目练习

overfit同步小助手 2024-07-25 04:03:53 0 收藏

数仓工具—Hive语法之数组函数用法和示例

之后，您可以使用数组操作函数来操作数组类型。数组函数将自然语言文本的字符串分割成单词和句子，每个句子在适当的句子边界处断开，并作为单词数组返回。函数根据数组元素的自然排序对输入数组进行升序排序并返回。例如，考虑以下示例对数组字符串进行排序并返回排序后的数组。例如，以下示例仅从键值对 map 类型中返

overfit同步小助手 2024-07-25 00:03:50 0 收藏

【大数据技术概述】Hadoop、Spark等大数据技术介绍

大数据指的是无法用传统数据库工具进行采集、管理和处理的海量数据集。大数据技术通过分布式存储和计算，能够高效地处理和分析这些数据，提取有价值的信息。常见的大数据技术包括Hadoop、Spark、Flink、Hive等。Hadoop是一个开源的分布式计算框架，由Apache基金会维护。Hadoop的核心

overfit同步小助手 2024-07-24 20:03:51 0 收藏

大数据技术--实验01-Hadoop的安装与使用【实测可行】

使用下面表中的软件版本进行配置：准备好后，按照下面的步骤进行配置。在VMWare主界面，点击“编辑”>“虚拟网络编辑”菜单进入虚拟网卡参数设置界面。选择VMnet8条目，点击“NAT设置”按钮后可以看到我们的VMWare Workstation为NAT连接的虚拟机设定的默认网关，此处为192.168

overfit同步小助手 2024-07-24 07:03:50 0 收藏

hadoop 3.X 分布式HA集成Kerbos(保姆级教程）

前提：先安装Kerbos。

overfit同步小助手 2024-07-24 06:03:21 0 收藏

hive 数仓开发实战

对于一个公司或者组织来说，使用数据的用户可能成百上千，如何降低大家对于数据使用的沟通成本、如何通过规范大家的行为来降低使用数据的风险，这些问题是必须加以考虑的。作为新的大数据架构，数据湖采集和存储一切数据，既包含结构化的数据也包含非结构化（如语音、视频等）和半结构化的数据（如JSON 和XML 等）

overfit同步小助手 2024-07-23 11:03:57 0 收藏

大数据之Hadoop部署

搭建一个Hadoop集群涉及到多个步骤，包括服务器规划，服务器环境准备，配置SSH无密码登录，安装Java，安装Hadoop，配置Hadoop，以及格式化和启动Hadoop集群。文章介绍了在三台CentOS系统服务器上搭建Hadoop集群的必要步骤和详细的描述，基于该方法可以把hadoop部署到任

overfit同步小助手 2024-07-23 02:03:27 0 收藏

22 - Hadoop HA 高可用集群搭建、手动模式、自动模式以及HA模式集群

（1）所谓 HA（High Availablity），即高可用（7*24 小时不中断服务）。（2）实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA 机制：HDFS 的 HA 和 YARN 的 HA。（3）NameNode 主要在以下两个方面影响 HDFS 集群HDFS H

overfit同步小助手 2024-07-22 16:03:31 0 收藏

关于HDFS 和HBase

总结来说，Apache HBase 就像是一个超级智能的图书管理系统，它建在巨大的图书馆（HDFS）之上，能够让你快速找到需要的信息，不管数据量有多大，都可以通过添加更多的电脑来轻松应对。想象一下，你有一个巨大的图书馆，这个图书馆就像 HDFS，它的架子上堆满了各种各样的书籍，每本书都非常厚，而且有

overfit同步小助手 2024-07-22 15:03:52 0 收藏

k8s搭建hadoop

通过本文介绍，您学习了如何使用Kubernetes搭建Hadoop集群，实现了大数据处理的分布式部署。这种部署方式可以更好地利用资源，实现高可用性和扩展性。希望本文对您有所帮助，祝您在大数据领域取得成功！

overfit同步小助手 2024-07-22 10:03:50 0 收藏

大数据-Hadoop-基础篇-第十章-Spark

Spark是一种通用的大数据计算框架,是基于RDD(弹性分布式数据集)的一种计算模型。那到底是什么呢？可能很多人还不是太理解，通俗讲就是可以分布式处理大量集数据的，将大量集数据先拆分，分别进行计算，然后再将计算后的结果进行合并。SparkSQL。

overfit同步小助手 2024-07-22 05:03:37 0 收藏

如何学习Hadoop：糙快猛的大数据之路（利用GPT 学习）

请记住，技术工具在不断evolve，"糙快猛"的学习方法可以让你快速掌握新技术的要领。每当你解决了一个难题，克服了一个障碍，你就离你的目标更近了一步。保持热情，保持好奇，继续前进！保持"糙快猛"的学习态度，快速掌握新技术通过实战项目深化对技术的理解。

overfit同步小助手 2024-07-22 05:03:20 0 收藏

Hadoop3：HDFS-通过配置黑白名单对集群进行扩缩容，并实现数据均衡（实用）

Hadoop

overfit同步小助手 2024-07-22 02:03:38 0 收藏

Hadoop发展史和生态圈介绍

Hadoop是由Apache基金会所开发的分布式系统基础架构，旨在解决海量数据存储和计算分析问题。Hadoop HDFS(Hadoop Distributed File System):分布式文件存储系统，解决海量数据存储问题。Hadoop Yarn:集群资源管理和任务调度框架，解决资源任务调度问题

overfit同步小助手 2024-07-21 23:03:37 0 收藏

大数据之Hadoop平台的搭建

三台虚拟机。

overfit同步小助手 2024-07-21 16:03:52 0 收藏

hive修改表字段数据类型

注：在执行操作时，你需要确保数据类型转换是安全的，即数据能够在新的数据类型下准确地表示。：在更改数据类型之前，请确保数据的值与新数据类型兼容。：如果你的应用程序依赖于这个Hive表，更改数据类型可能需要你更新应用程序的代码。：如果你正在修改一个分区表的列类型，并且希望这个更改应用到所有分区上，可以使

overfit同步小助手 2024-07-21 00:03:41 0 收藏

Zookeeper与Apache Hadoop的集成与应用

1.背景介绍Zookeeper与Apache Hadoop的集成与应用Apache Zookeeper是一个开源的分布式应用程序协调服务，它为分布式应用提供一致性、可靠性和可扩展性。Zookeeper可以用来实现分布式协调服务、配置管理、集群管理、命名注册、分布式同步等功能。Apache Hadoo

overfit同步小助手 2024-07-20 06:03:24 0 收藏

大数据hive表和iceberg表格式

iceberg表，是一种面向大型分析数据集的开放表格式，旨在提供可扩展、高效、安全的数据存储和查询解决方案。它支持多种存储后端上的数据操作，并提供 ACID 事务、多版本控制和模式演化等特性，使数据管理和查询更加灵活便捷。Iceberg 可以屏蔽底层数据存储格式上的差异，向上提供统一的操作 API，

overfit同步小助手 2024-07-20 00:03:48 0 收藏