Hadoop - overfit.cn

Hadoop安装Hive

如果以上步骤都能成功运行，说明 Hive 安装和配置完成，可以开始使用 Hive 进行大数据分析了。确保你的系统已经安装了 Java JDK（推荐使用 JDK 1.8 版本）。如果还没有安装 Hadoop，可以参考以下简要步骤安装 Hadoop。将 Hadoop 目录移动到合适的位置（例如。将 Hi

overfit同步小助手 2024-08-27 17:04:12 0 收藏

Hive 中的 SPLIT、COALESCE 及 COLLECT_LIST 函数的用法

SPLITstr：要拆分的字符串。delimiter：用于拆分的分隔符。COALESCE：一组值，COALESCE将返回第一个非空值。expr：要收集的表达式。Hive 提供的SPLITCOALESCE和函数是数据处理和分析中非常有用的工具。它们可以帮助用户高效地处理字符串、管理空值，以及聚合数据。

overfit同步小助手 2024-08-27 11:04:00 0 收藏

Spark 2 迁移 Spark 3 参考手册

Apache Spark是一个广泛应用于大规模数据处理的开源统一分析引擎。自发布以来，它已经成为大数据处理的事实标准。2020年发布的Spark 3.0带来了许多新特性和改进，极大地提升了性能和易用性。如果你习惯使用Spark 2，那么了解新版本的变化将非常有帮助。本文将重点介绍Spark 2和Sp

overfit同步小助手 2024-08-27 08:03:39 0 收藏

【Hive SQL】数据探查-数据抽样

在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，因此一般情况下只需要抽取一小部分数据进行分析及建模操作。下面罗列一些常用的数据抽样方法。

overfit同步小助手 2024-08-27 07:03:42 0 收藏

hadoop搭建本地hive库保姆级教程

3）远程模式：也是使用mysql存储元数据，但是用户可以在任意服务器上远程连接Hive并进行操作。注意]：hadoop和hive的运行都依赖jar包guava.jar,但是它们默认使用该jar包的版本不一致可能会有jar包冲突问题，所以需要用hadoop下的jar包替换hive中的。2）本地模式：使

overfit同步小助手 2024-08-27 04:03:32 0 收藏

Hive(十)函数列转行

select * from (select name, x, a from people lateral view explode(xinge) x_tmp as x lateral view explode(aihao) a_tmp as a) tmp where x='活泼' and a='打篮

overfit同步小助手 2024-08-26 21:03:45 0 收藏

深入解析HDFS：定义、架构、原理、应用场景及常用命令

HDFS是Hadoop生态系统中的一个分布式文件系统，旨在在集群的廉价硬件上可靠地存储大数据集。HDFS设计为高容错，并为高吞吐量数据访问而优化，适用于在商用硬件上运行的大数据应用。

overfit同步小助手 2024-08-26 16:02:07 0 收藏

Hive建表全攻略-从入门到精通

探索Apache Hive的强大功能！本文深入讲解Hive建表技巧、性能优化、安全管理和生态系统集成。从基础语法到高级特性，包括分区表、ORC存储、动态分区、查询优化等核心概念。学习如何处理数据倾斜、实现细粒度访问控制，以及与Spark、Kafka、HBase无缝集成。通过实战案例掌握构建高效数据仓

overfit同步小助手 2024-08-26 15:03:43 0 收藏

【Hadoop】建立圈内组件的宏观认识（大纲版）

【Hadoop】建立圈内组件的宏观认识的大纲，属于精炼的概述性科普，后续会进行优化

overfit同步小助手 2024-08-26 14:03:36 0 收藏

Spark离线开发指南(详细版)

API：2.1.2–获取分区数API：API：sparkcontext.textFile(参数1，参数2)参数1：必填，文件路径支持本地，支持HDFS，也支持一些比如S3协议参数2：可选，表示最小分区数量注意：参数2话语权不足，spark有自己的判断，在它的允许的范围内，参数2才有效果，超出spar

overfit同步小助手 2024-08-25 22:03:49 0 收藏

hadoop分布式云笔记系统-计算机毕业设计源码15725

摘要随着信息技术的飞速发展，人们对于数据的存储、管理和共享需求日益增长。传统的集中式存储系统在处理大规模数据时面临着性能瓶颈和扩展性问题。而 Hadoop 作为一种分布式计算框架，为解决这些问题提供了有效的解决方案。本研究旨在设计并实现一种基于 Hadoop 的分布式云笔记系统。该系统将充分利用

overfit同步小助手 2024-08-25 18:04:01 0 收藏

Spring 中AbstractRefreshableWebApplicationContext

是 Spring Framework 中用于 Web 应用程序的一个抽象类，位于包中。它继承自，主要用于支持 Web 应用程序的上下文管理。

overfit同步小助手 2024-08-25 18:03:07 0 收藏

配置MySQL主从，配置MySQL主主 +keeplive高可用

注意：这个是我两年前的word文档，可以当作参考文档有个思路参考一下，但是里面可能有些地方有误

overfit同步小助手 2024-08-25 13:03:38 0 收藏

大数据Hive（介绍+安装+使用）

对数据进行统计分析，SOL是目前最为方便的编程工具，但是MapReduce支持程序开发 (Java、Python等)但不支持SQL开发。Hive是一款分布式SQL计算的工具，其主要功能是将SQL语句翻译成MapReduce程序运行。

overfit同步小助手 2024-08-25 12:03:19 0 收藏

CentOS7安装Hadoop集群

Centos7部署Hadoop3.3.6以及Hive3.1.3

overfit同步小助手 2024-08-25 10:03:44 0 收藏

Hadoop的安装和使用-2024年08月01日

1.创建Hadoop用户2.SSH登陆权限设置3.java的安装4.Hadoop单机安装配置5.Hadoop伪分布式安装配置

overfit同步小助手 2024-08-24 22:03:59 0 收藏

Apache ZooKeeper（Hadoop）详细原理和使用

例如，如果 zxid1小于 zxid2，说明 zxid1 操作先于 zxid2 发生，zxid 对于整个zk 都是唯一的，即使操作的是不同的 znode。dataVersion：数据版本号，每次对节点进行 set 操作，dataVersion 的值都会增加 1（即使设置的是相同的数据），可有效避免了

overfit同步小助手 2024-08-24 20:03:46 0 收藏

传统数据库三范式建模和数据仓库维度建模详细篇

如何建库建表? 传统三范式建模和数据仓库维度建模都是什么?有什么区别?

overfit同步小助手 2024-08-24 19:03:18 0 收藏

Hive SQL的坑和note

但是如果我们使用的目的仅仅时简化sql比如有时候查询指定的字段 select a,b,c,d,e,f,g,h from t 这种比较简单的查询还是推荐with tmp as ()语法，因为hive本身查询这种就很快，不需要额外花费时间落地为数据这样还更耗时。

overfit同步小助手 2024-08-24 14:03:55 0 收藏

深入探索【Hadoop】生态系统：Hive、Pig、HBase及更多关键组件（上）

本文深入探索了Hadoop生态系统的核心组成部分及其关键组件，特别是聚焦于Hive、Pig和HBase这三个重要工具。Hadoop作为大数据处理和分析的基石，通过其丰富的生态系统为企业和组织提供了强大的数据处理能力。首先，文章介绍了Hive，作为Hadoop上的数据仓库工具，Hive允许用户通过类S

overfit同步小助手 2024-08-24 10:03:14 0 收藏