主流大数据调度工具DolphinScheduler之数据ETL流程

主流大数据调度工具DolphinScheduler之数据ETL流程

HiveSQL题——array_contains函数

HiveSQL题——array_contains函数

Hadoop、Hive、HBase、数据集成、Scala阶段测试

ResourceManager 是 YARN 架构中的核心组件之一,负责接收客户端提交的作业(如 MapReduce 任务、Spark 任务等),并为这些作业分配资源(如内存、CPU)以在集群中的 NodeManager 上执行。spark的任务调度流程:driver端,遇到action算子触发任务

摸鱼大数据——Spark SQL——Spark on Hive部署

spark.sql("""insert into spark_demo.stu values(1,'张三'),(2,'李四')""")spark-sql>insert into spark_demo.stu values(1,'张三'),(2,'李四');(1)检查hive中 hive-site

如何学习Hive:糙快猛的大数据之路( 从入门到实战)

本文涵盖从基础概念到高级优化技巧,深入剖析Hive的内部原理、性能调优和故障排除。通过实际案例,展示了Hive在金融、医疗、电信等行业的应用。文章还探讨了Hive与Spark、HBase等技术的集成,以及在数据湖、机器学习中的角色。从"糙快猛"的入门策略到企业级最佳实践,本指南助你成为真正的Hive

Hive字符串匹配函数 LIKE 和 RLIKE 使用示例

LIKELIKE 函数用于在Hive中进行简单的模式匹配,通常用于匹配固定模式的字符串。语法: column_nameLIKE‘pattern’示例: SELECT * FROM table_name WHERE column_nameLIKE‘abc%’在 LIKE 中,通配符表示匹配任意数量的字

HBase与Hive:数据仓库和OLAP

1.背景介绍1. 背景介绍HBase 和 Hive 是 Apache Hadoop 生态系统中两个重要的组件。HBase 是一个分布式、可扩展、高性能的列式存储系统,主要用于存储大量结构化数据。Hive 是一个基于 Hadoop 的数据仓库解决方案,主要用于处理和分析大规模数据。HBase 和 Hi

数仓工具—Hive语法之排除特定列

Apache Hive是一个基于Hadoop HDFS的数据仓库框架,用于存储和分析大量数据。Apache Hive支持大多数关系数据库功能,如对大型表进行分区和根据分区列存储值。现在,问题是如何从SELECT查询结果中排除Hive分区列?有一种方法可以用来排除分区列。这个在我们需要表中大量列的时候

[数仓]三、离线数仓(Hive数仓系统)

Hive引擎包括:默认MR、tez、sparkHive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive: Hive只作为存储元数据,Spark负责SQL解析优化,语法是SparkS

【Hive SQL 每日一题】统计用户留存率

实现用户留存率的需求其实很简单,这里要求在系统上线后,统计每天的用户留存率,我们每次只需要算出“今天”的用户数量与“昨天”的用户数量比例即可。它反映了用户对产品的持续兴趣和满意度,是评估产品成功与否的重要指标之一。用户留存率(User Retention Rate)是一个衡量用户在特定时间段内继续使

Hive常用日期函数,时间函数

Hive常用日期函数,时间函数。

Hive常用函数_20个字符串处理

1.CONCAT()2.SUBSTR()3.UPPER()4.LOWER()5.TRIM()6.LENGTH()7.REPLACE()8.SPLIT()9.INSTR()10.REGEXP_EXTRACT()11.REGEXP_REPLACE()12.REVERSE()13.LPAD()14.RPA

Hive - 分区表

Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录,每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区,这样的查询效率会提高很多。将一张大表按照某个字段进行划分 划分到多个文件夹中每个文件夹内部存储一部分表内容这样的表结构就被称之为分区表分区的好

HIVE无法启动问题

HIVE无法启动问题

Hive笔记-6

Group By语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。max(),求最大值,不包含null,除非所有值都是null;min(),求最小值,不包含null,除非所有值都是null;count(某列),表示该列一共有多少行,不包含null值;count

【IDEA配置连接Linux虚拟机的Hive数据库(超详细)】

填写hive server2所在的服务器或主机的主机名或者ip,登录的用户名,然后测试连接。打开IDEA,创建或打开一个项目,点击Database,选择”+“号,点击Driver。添加Hive的jdbc jar包。之后点击Apply完成添加。的文件,即可快乐的进行hive QL的代码编写。点击OK,

大数据SQL题47 打车问题

注:不同时段定义:早高峰 [07:00:00 , 09:00:00)、工作时间 [09:00:00 , 17:00:00)、晚高峰 [17:00:00 ,20:00:00)、休息时间 [20:00:00 , 07:00:00) 时间区间左闭右开(即7:00:00算作早高峰,而9:00:00不算做早高

如何学习Presto:糙快猛的大数据之路(建立整体框架)

想要快速掌握Presto这个强大的分布式SQL查询引擎吗?我们的"糙快猛"学习指南带你从入门到精通!本文涵盖Presto基础知识、核心概念、高级特性和实际应用场景。无论你是大数据新手还是经验丰富的开发者,都能在这里找到有价值的内容。从基本SQL查询到性能优化,从跨源数据分析到未来趋势,我们都有详细讲

Hive窗口函数

在 Apache Hive 中,窗口函数是一种特殊类型的函数,它允许你在查询中对分区数据执行复杂的分析。窗口函数在标准 SQL 中可用,Hive 作为 Apache Hadoop 的一个组件,也支持这些功能。以下是一些常见的窗口函数以及如何在 Hive 中使用它们的示例。

大数据期末复习——hadoop、hive等基础知识

Hadoop提供了高可用性的解决方案,如HDFS的NameNode HA(高可用性)机制和VARN的ResourceManager HA机制,确保即使在节点故障的情况下,集群仍能保持高可用性,不影响作业的执行。2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈