大数据 Hadoop - overfit.cn

hive的first_value、last_value函数，可取非null值

介绍hive函数first_value、last_value用法

overfit同步小助手 2024-09-07 14:03:47 0 收藏

插入Hive表数据SQL

Hive是一个建立在Hadoop之上的数据仓库工具，它提供了类似于SQL的语言HiveQL，使用户能够在Hadoop中进行数据分析和查询。在Hive中，表是数据存储和管理的基本单元，用户可以通过表来组织和存储数据。

overfit同步小助手 2024-09-07 09:03:31 0 收藏

Windows 安装hadoop 3.4

overfit同步小助手 2024-09-07 00:03:35 0 收藏

数仓工具—Hive语法之替换函数和示例

rlike regexp 是一样的，都是正则匹配REGEXP_REPLACE 是正则替换REGEXP_REPLACE 是正则提取Translate 是字符替换like 是字符匹配，有自己的语法。

overfit同步小助手 2024-09-06 22:03:33 0 收藏

hive 正则表达式

2024年6月1日公告: 1、“三力转债”到期日和兑付登记日:2024年6月7日(星期五) 2、“三力转债”到期兑付价格:106元/张(含最后一期利息,含税) 3、“三力转债”到期兑付资金发放日:2024年6月11日(星期二) 4、“三力转债”摘牌日:2024年6月11日(星期二) 5、“三力转债”

overfit同步小助手 2024-09-06 09:03:57 0 收藏

Servlet详解（超详细）

（保姆级教学）本文从Servlet的概念，使用，生命周期三个大点来详细理解Servlet。其内还含有需要注意的点，相关经验，小tips等等。

overfit同步小助手 2024-09-06 04:03:36 0 收藏

图解 Hadoop 架构｜Yarn、MapReduce

YARN（Yet Another Resource Negotiator）是 Hadoop 生态系统的一个关键组件，用于集群资源管理和作业调度，是 Hadoop 的第二代资源管理器，取代了早期版本中的 MapReduce 作业调度器，为大规模数据处理提供了更灵活和高效的资源管理框架。尽管 MapRe

overfit同步小助手 2024-09-06 01:03:58 0 收藏

Hadoop 中的大数据技术：调优篇（1）

NameNode内存计算每个文件块大约占用150字节。以一台服务器128GB内存为例，可以存储多少文件块？Hadoop 2.x系列，配置NameNode内存NameNode内存默认为2000MB，如果服务器内存为4GB，NameNode内存可以配置为3GB。在Hadoop 3.x系列，配置NameN

overfit同步小助手 2024-09-06 00:03:41 0 收藏

hive 基本语法

*不会在HDFS对数据库所在目录进行改名，只是修改location后，新创建的表在新的路径，旧的不变**虚拟列是Hive内置的可以在查询语句中使用的特殊标记，可以查询数据本身的详细参数。**分桶表无法使用LOAD DATA进行数据加载****分区所在的HDFS文件夹依旧保留**将其它表数据，加载到目

overfit同步小助手 2024-09-05 08:03:52 0 收藏

【Hadoop】集群搭建实战：超详细保姆级教程

本文深入探讨了Hadoop集群的搭建过程，从理论基础到实战操作，为读者提供了一站式的指南。文章首先概述了Hadoop作为大数据处理框架的重要性，并简要介绍了其分布式存储（HDFS）和分布式计算（MapReduce）两大核心组件。随后，详细阐述了Hadoop集群搭建前的准备工作，包括环境规划、硬件选型

overfit同步小助手 2024-09-05 08:03:29 0 收藏

基于Hadoop的PM2.5分布可视化系统设计

城市或者省份可以自己更换，该数据为全国数据在当前大数据背景下，空气质量监测分析日益重要，特别是PM2.5因其对健康和环境的潜在影响备受关注。本研究采用1998至2021年全国PM2.5分布数据，包括省级到市县级各类指标，共计约7万条有效记录。通过细致的数据预处理，如剔除无关变量、去除重复和缺失值等，

overfit同步小助手 2024-09-05 01:03:29 0 收藏

Hadoop入门基础（一）：深入探索Hadoop内部处理流程与核心三剑客

Hadoop是Apache Software Foundation开发的一个开源分布式计算框架，旨在使用简单的编程模型来处理大规模数据集。它的优势在于能够以横向扩展的方式处理大量数据，使得数据分析在廉价硬件集群上变得可行。Hadoop的三大核心组件分别是：HDFS（Hadoop Distribute

overfit同步小助手 2024-09-04 01:03:53 0 收藏

【Hive SQL 每日一题】找出各个商品销售额的中位数

子查询中可以看到，如果总个数为奇数时，那么该组中的中位数有且仅有一个，因为它无论时正序还是逆序排列，中位数的排名都不会发生改变，这种情况时，那么是不是满足条件。这两个函数无法严格的计算出中位数，它们计算的只是一个近似值，意味着和真正的中位数是存在一定差异的，特别是在数据量较少或数据分布不均的情况下。

overfit同步小助手 2024-09-04 00:03:50 0 收藏

Hadoop端口号全解析：掌握这些端口，轻松驾驭大数据集群，一文读懂常用端口号及其作用！

MapReduce作业的执行情况主要通过YARN ResourceManager的Web UI（即8088端口）来查看。虽然MapReduce本身不直接提供特定的Web UI端口，但其作业的日志和输出通常会存储在HDFS上，因此与HDFS相关的端口（如50070或9870，取决于Hadoop的版本）

overfit同步小助手 2024-09-03 18:03:57 0 收藏

Hive数仓总结

数据仓库(Data Warehouse)，简称DW。数据仓库顾名思义，是⼀个很⼤的数据存储集合，出于企业的分析性报告和决策⽀持⽬的⽽创建，对多样的业务数据进⾏筛选与整合。它为企业提供⼀定的BI（商业智能）能⼒，指导业务流程改进。 Hive是Facebook为了解决海量日志数据的统计分析而开发的基于H

overfit同步小助手 2024-09-03 04:03:54 0 收藏

hadoop3.1.3安装

hadoop3.1.3集群安装

overfit同步小助手 2024-09-03 01:03:52 0 收藏

代表性大数据技术：Hadoop、Spark与Flink的框架演进

本文回顾了大数据技术发展的几个重要里程碑，从MapReduce编程模型的提出到Hadoop、Spark和Flink等大数据框架的涌现。

overfit同步小助手 2024-09-02 17:03:55 0 收藏

基于SpringBoot+Hadoop+python的物品租赁系统(带1w+文档)

物品租赁系统是电子、信息技术相结合，是一种必然的发展趋势。以互联网为基础，以服务于广大用户为目的，发展整体优势，扩大规模，提升服务质量，提高物品租赁的管理效率。物品租赁系统实现了物品租赁管理向现代化和网络化的转型，为管理决策和控制提供保障，这是物品租赁管理发展中里程碑式的转型。

overfit同步小助手 2024-09-01 20:03:34 0 收藏

Hadoop的HA配置与实现（ZooKeeper）

将112的tmp目录复制到113上（113为备用的主节点）和dfs.namenode.http-address.

overfit同步小助手 2024-09-01 19:03:35 0 收藏

使用beeline连接hive

使用beeline连接hive的前提是hive已经部署完毕，Hive单机部署可以看：http://t.csdnimg.cn/54WMQ。

overfit同步小助手 2024-09-01 02:03:33 0 收藏