大数据 Hadoop - overfit.cn

SQL on Hadoop

Hadoop 提供了一种分布式存储和计算的平台，为了解决传统关系型数据库无法处理海量数据的问题，通过扩展 SQL 的方式在 Hadoop 上执行分布式查询，称之为。

overfit同步小助手 2024-12-14 01:03:45 0 收藏

Hadoop生态圈框架部署伪集群版（七）- Hive部署

随着大数据技术的不断发展，数据处理和分析的需求日益增长。Apache Hive作为基于Hadoop的一个数据仓库工具，能够极大地简化对大规模数据集的查询和管理过程。它允许用户使用类似于SQL的HiveQL语言查询数据，这使得那些熟悉关系型数据库管理系统（RDBMS）的开发者可以轻松地转移到大数据平台

overfit同步小助手 2024-12-14 01:03:34 0 收藏

DBeaver连接Hive教程

简而言之，hiveserver2是Hive启动了一个server，客户端可以使用JDBC协议，通过IP+ Port的方式对其进行访问，达到并发访问的目的。：通过hive shell来操作hive，但是至多只能存在一个hive shell，启动第二个会被阻塞，也就是说hive shell不支持。编辑驱

overfit同步小助手 2024-12-13 21:03:26 0 收藏

Spring Boot 和 Hadoop 3.3.6 的 MapReduce 实战：日志分析平台

是一个开源的分布式计算框架，主要用于处理大规模数据集。HDFS（Hadoop 分布式文件系统）：一个分布式存储系统，能够高效地存储大数据。MapReduce：一种并行计算模型，用于处理和生成大规模数据集。：Hadoop 的资源管理系统，负责集群资源的管理和调度。Hadoop 的强大之处在于它的可扩展

overfit同步小助手 2024-12-13 17:03:20 0 收藏

厦门大学数据库实验室林子雨Hadoop3.1.3安装心得第一篇

通过查看sshd_config文件，将PermitRootLogin设置为yes，然后重启SSH服务，可以解决此问题。我个人建议不创建，也省去给创建的用户添加权限问题，减少不必要的代码（这个看个人喜好，当然如果还是想创建也是没有问题的，我这里就不创建——就用。这里不要输入任何，一直回车就行了（这边主

overfit同步小助手 2024-12-13 10:03:45 0 收藏

Hadoop 完全分布式部署

用于配置 YARN 的相关参数，如 ResourceManager 的地址、NodeManager 的资源分配等。

overfit同步小助手 2024-12-12 20:03:31 0 收藏

Hadoop搭建（概述及环境搭建）详细版

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要结局，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念 —Hadoop生态圈。NameNode（nn）：存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及

overfit同步小助手 2024-12-12 17:03:44 0 收藏

【Pyspark-驯化】一文搞懂Pyspark中过滤数据filter和when函数的使用技巧

在PySpark中，when和filter是两个非常有用的函数，它们用于在DataFrame中进行条件筛选和数据转换。when通常与select和withColumn一起使用，用于根据条件创建新的列或转换数据。filter则用于根据条件筛选出满足特定条件的行。PySpark中的when和filter

overfit同步小助手 2024-12-12 14:04:35 0 收藏

Hadoop 集群搭建与配置：从入门到精通

搭建和配置 Hadoop 集群虽然步骤较多，但只要按照本文的步骤细心操作，就能够成功搭建起自己的 Hadoop 集群。这为后续的大数据处理和分析工作奠定了坚实的基础，开启了大数据之旅的重要一步。随着对 Hadoop 使用的深入，还可以根据实际需求进一步优化集群配置，提高集群性能。

overfit同步小助手 2024-12-12 14:04:28 0 收藏

Hadoop 3.x 新特性详解

overfit同步小助手 2024-12-12 00:03:27 0 收藏

期末复习-Hadoop名词解释+简答题+代码题hive

如果从字面意思来看，大数据指的是海量数据；从大数据特点来看，大数据具有海量、流转快、数据类型丰富及价值密度低等特点；如果从技术角度来看，大数据的战略意义不仅在于掌握庞大的数据，还包括对这些数据进行有效处理；换言之，如果把大数据比作一种产业，那么这种产业盈利的关键在于提高对大数据的加工能力，通过加工技

overfit同步小助手 2024-12-11 20:03:34 0 收藏

Filter过滤器的使用

Filter过滤器是一种部署在Web服务器上的组件，它能够对客户端发送到服务器的请求以及服务器返回给客户端的响应进行拦截和处理。通过Filter过滤器，开发者可以在请求到达Servlet之前或响应发送给客户端之前对它们进行各种操作。当用户请求某个Servlet时，会先执行部署在这个请求上的Filte

overfit同步小助手 2024-12-11 14:03:41 0 收藏

hadoop5.1和5.2

文章目录hadoop第五章5.1 筛选日志文件生成序列化文件5.1.1、设置MapReduce输入格式5.1.2、设置MapReduce输出格式5.1.3、任务实现筛选日志文件并生成序列化文件（完整代码）5.2 使用Hadoop Java API 读取序列化文件（完整代码）列举子目录列举文

overfit同步小助手 2024-12-11 13:03:14 0 收藏

Hadoop分布式集群搭建教程

本篇博客主要讲解如何在Linux虚拟机上搭建Hadoop的分布式集群

overfit同步小助手 2024-12-11 08:03:39 0 收藏

shell中执行hive指令以及hive中执行shell和hdfs指令语法

主要介绍了shell中执行hvie指令、hive交互中执行linux及hdfs指令

overfit同步小助手 2024-12-10 10:03:52 0 收藏

Hadoop 系列 MapReduce：Map、Shuffle、Reduce

Hadoop 是一个开源的分布式计算框架，专为处理大规模数据而设计。它最初由 Apache 软件基金会开发，能够以经济高效的方式在分布式集群上存储和处理海量数据。Hadoop 的核心组件包括分布式存储（HDFS）和分布式计算（MapReduce），以及一套支持工具。本文将重点探讨分布式计算（MapR

overfit同步小助手 2024-12-10 10:03:24 0 收藏

Hadoop(HDFS)

Hadoop是一个开源的分布式系统架构，旨在解决海量数据的存储和计算问题，Hadoop的核心组件包括Hadoop分布式文件系统（HDFS）、MapReduce编程模型和YARN资源管理器,最近需求需要用到HDFS和YARN。

overfit同步小助手 2024-12-10 08:03:16 0 收藏

Hadoop手把手教你生态搭建及项目实战系列（三）Hadoop伪分布式集群模式整体实现

伪分布式集群模式是一种在单台机器上模拟分布式环境的模式，适合学习和开发。它介于完全分布式和单节点模式之间，通过在一台计算机上配置多个 Hadoop 节点（如 NameNode、DataNode、ResourceManager、NodeManager 等），实现 Hadoop 集群的基础操作。伪分布式

overfit同步小助手 2024-12-10 03:04:22 0 收藏

windows下配置hadoop3.1.4环境

winutils 是 Hadoop 在 Windows 操作系统上运行时所需的一个工具集。它主要用于提供一些 Unix/Linux 系统上默认存在的功能和命令的替代实现，因为 Hadoop 大部分是在这些系统上开发和运行的。[在这里插入图片描述](https://i-blog.csdnimg.cn/

overfit同步小助手 2024-12-09 15:03:16 0 收藏

Python毕业设计选题：基于Hadoop 的国产电影数据分析与可视化_django+spider

国产电影数据分析与可视化是对我国电影产业进行深入研究的过程。通过收集和分析电影的票房、评分、观众评价等数据，可以揭示电影市场的发展趋势、观众喜好以及影响电影成功的关键因素。利用数据可视化技术，将这些复杂数字信息转化为直观的图表和图形，有助于电影制作方、发行方和政策制定者更好地理解市场动态，优化决策，

overfit同步小助手 2024-12-09 13:03:15 0 收藏