大数据 Hadoop - overfit.cn

Hive中的数据类型详解

Hive的数据类型是构建数据表、进行数据分析和查询的基础。了解Hive中各类数据类型的特点、使用场景和选择原则，有助于数据工程师和分析师在设计表结构时作出合理的决策。基本数据类型：包括数字、字符串、布尔、日期和时间类型，适用于存储最基本的数据。复杂数据类型：包括数组、结构体和映射，适用于存储更复杂和

overfit同步小助手 2024-09-19 02:03:47 0 收藏

【大数据分析工具】使用Hadoop、Spark进行大数据分析

Hadoop是一个开源的分布式计算框架，最初由Apache基金会开发。Hadoop分布式文件系统（HDFS）：负责存储大规模数据，提供高吞吐量的数据访问。MapReduce：一种编程模型，用于处理和生成大规模数据集，运行在分布式集群上。YARN：Hadoop的资源管理器，用于调度系统资源，支持多种数

overfit同步小助手 2024-09-19 00:03:49 0 收藏

hadoop之MapReduce

Hadoop的三大组件：HDFS、Yarn、MapReduce。HDFS：解决的是分布式存储的问题。MapReduce: 解决的是计算问题。Yarn: 计算的时候，使用的资源如何协调（Windows操作系统）mapReduce的优缺点：优点1、易于编程代码写起来有固定的格式，编写难度非常的小，号称是

overfit同步小助手 2024-09-18 20:03:48 0 收藏

【Bigtop】利用Bigtop3.2.0编译大数据组件RPM包

Bigtop 从0开始参考了上述的博文自己尝试了编译组件，过程还是遇到很多问题，一一记录，方便后人

overfit同步小助手 2024-09-18 19:03:36 0 收藏

hive搭建 -----内嵌模式和本地模式

hive的搭建，常用的本地模式以及不常用的内嵌模式

overfit同步小助手 2024-09-18 17:03:36 0 收藏

Hadoop完全分布式+spark（python）

这是因为在根据master主机克隆的同时把主机名也克隆了，这就导致slave1主机和slave2主机的主机名也为master，因此要进行配置，在slave1,slave2上分别执行。做完以上操作后系统的准备工作就做好了，但实际在操作主机时是不会真的在主机上操作，而通常是通过一个远程连接软件来操作主机

overfit同步小助手 2024-09-18 10:03:48 0 收藏

Hadoop伪分布式搭建

伪分布式模式也是在一台单机上运行，集群中的结点由一个NameNode和若干个DataNode组，另有一个SecondaryNameNode作为NameNode的备份。一个机器上，既当namenode，又当datanode,或者说既是jobtracker，又是tasktracker。没有所谓的在多台机

overfit同步小助手 2024-09-18 07:03:15 0 收藏

关于Hadoop无法连接到50070的问题

运行中则使用systemctl stop firewalld.service关闭防火墙则可以登录50070。3、使用sudo firewall-cmd --state查看防火墙状态是否运行。2、启动集群（start-all.sh）后查看jps是否有6个。1、首先检查自己的配置环境。

overfit同步小助手 2024-09-18 05:03:18 0 收藏

hive入门

打开：命令提示符程序，输入mysql -uroot -p 回车查看数据库使用数据库use 数据库名称;创建数据库删除数据库查看当前使用的数据库查看当前use的数据库。

overfit同步小助手 2024-09-18 01:03:24 0 收藏

开源大数据Hadoop伪分布式搭建及虚拟机的创建

虚拟机的创建和开源大数据Hadoop伪分布式搭建及WordCount官方案例的实验

overfit同步小助手 2024-09-17 19:03:56 0 收藏

Hadoop实时数据处理框架Spark技术教程

SparkSQL是Apache Spark框架中的一个模块，它提供了用于处理结构化和半结构化数据的编程接口。SparkSQL不仅能够处理传统的SQL查询，还能够处理更复杂的数据类型，如JSON和XML。它通过DataFrame和Dataset API，使得开发者能够以面向对象的方式处理数据，同时保持

overfit同步小助手 2024-09-17 18:03:58 0 收藏

Hive SQL语言

在查询过程中执行顺序：from > where > group（含聚合）> having >order > select；LOCATION：指定数据库在HDFS存储位置，默认/user/hive/warehouse/dbname.db。2. where子句在查询过程中执行优先级别优先于聚合语句(su

overfit同步小助手 2024-09-17 13:03:44 0 收藏

Hadoop在window下安装实践

Hadoop在window下的安装教程

overfit同步小助手 2024-09-17 13:03:19 0 收藏

Hive SQL基础语法及查询实践

查询出薪水大于1000的所有员工。典型的查询会返回多行数据。子句用于限制返回的行数。子句中不能使用字段别名。

overfit同步小助手 2024-09-17 11:03:52 0 收藏

基于Hadoop的热点新闻分析系统

项目内容：本系统拥有管理员和用户两个模块，主要具备有系统首页、个人中心、用户管理、新闻类型管理、主题标签管理、热点新闻管理、新闻评分管理、新闻资讯管理、系统管理等功能模块。开发技术：Python django Hadoop scrapy mysql。基于Hadoop的热点新闻分析系统。包含源码➕数据

overfit同步小助手 2024-09-17 02:03:39 0 收藏

【大数据】深入浅出Hadoop，干货满满

Hadoop是一个开源的分布式计算平台，由Apache软件基金会开发和维护。它是大数据处理的基石，能够高效地存储和处理大规模数据。目前业界基本上用的都是**Hadoop及其生态下的产品**。Hadoop的主要特点是高可靠性和高扩展性，它可以在成百上千个节点上运行，每个节点都可以存储和处理数据。

overfit同步小助手 2024-09-16 18:03:33 0 收藏

大数据平台Hadoop实验环境部署（完全分布式集群模式）

本文讲述了hadoop大数据实验平台完全分布式集群部署详情

overfit同步小助手 2024-09-16 08:03:47 0 收藏

Linux CentOS安装Hadoop3.1.3（单机版）详细教程

Hadoop是一个开源的分布式计算框架，主要用于大数据处理。它包括HDFS分布式文件系统和MapReduce计算模型，能够高效地存储和处理大规模数据集，广泛用于数据挖掘、分析和机器学习。

overfit同步小助手 2024-09-16 01:03:35 0 收藏

数据湖hudi技术详解

Hudi数据模型Hudi将数据分为三个层次：文件（File）、记录（Record）和时间线（Timeline）。文件（File）：文件是存储在HDFS上的数据单元，包含了一组记录。每个文件都有一个唯一的文件ID，用于标识文件。文件可以追加数据记录，也可以被删除。记录（Record）：记录是文件的最小

overfit同步小助手 2024-09-15 05:03:45 0 收藏

Centos优化Hadoop_linux优化hadoop

ONBOOT=yes。

overfit同步小助手 2024-09-14 04:03:22 0 收藏