折腾一晚上的事情,明白了一个道理

感悟:有时候很简单的笨办法,比那些高大上的技术要实用的多。有一个数据同步,大约4亿条记录,没有分区。现在要按照天,小时分区写入到iceberg的分区表中。源数据中本身就是很多几十k大小的非常多的小文件。于是在读取时,总想着要shuffle,合并小文件,于是是这样的:hive_df = spark.t

【Hive】各种join连接用法

hive join连接的各种用法

安装完全分布式 hive 远程安装时出现错误

/usr/bin/ssh-copy-id : INFO: Source of key(s) to be installed: "/home/hadoop/.ssh/id_rsa.pub"/usr/bin/ssh-copy-id : INFO: attempting to log in with th

学习大数据必须掌握哪些核心技术?

大数据发展到今天,已经是越来越成熟,无论是大型互联网公司,还是小型的创业公司,都能看见大数据的身影。那么,学习大数据必须掌握哪些核心技术呢?数据采集就是将这些包括移动互联网数据、社交网络的数据等各种来源的数据,写入数据仓库中,把零散的数据整合在一起,对这些数据进行综合分析。Flume NG作为实时日

hadoop生态圈面试精华之MapReduce(二)

hadoop生态圈面试精华之MapReduce(二)

Hadoop大数据处理架构学习——Linux系统上安装Hadoop(Ubuntu22.04)

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供系统底层细节透明的分布式基础架构。Hadoop的核心是Hadoop分布式文件系统(Hadoop Distribute File System,HDFS)和MapReduce。Hadoop被公认为行业大数据标准开源软件,在分布

集群打开和关闭顺序及其命令

集群打开关闭顺序如果错了会非常麻烦,掌握以下知识点,问题迎刃而解

Hadoop,Spark,Tez的区别与联系

本文主要介绍,三种计算引擎的的各自优势,与区别,可以帮助你在学习过程中解决学习中的疑惑!

伪分布式集群搭建(hadoop)

hadoop伪分布式搭建

大数据平台下的数据治理

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。

通过WordCount案例深入理解MapReduce的实现过程

- MrAppMaster:负责整个程序的过程调度和状态协调- MapTask:负责Map阶段的整个数据处理流程- ReduceTask:负责Reduce阶段的整个数据处理过程

Hadoop生态之Kafka(一)

Kafka基础知识以及对设计模式的理解Kafka面试题

吐血整理的大数据学习资源大全

一、网站网易公开课 https://open.163.com/腾讯课堂 https://ke.qq.com/中国大学慕课 https://www.icourse163.org/B站 https://www.bilibili.com/学习资源非常多,内容系统且全面,重点关注一些专业培训机构上传的学习视

DataFrame基础知识

DataFrame:可以看出分布式Row对象的集合,在二维表数据集的每一列都带有名称和类型,这些就是schema(元数据)Select:col:某一列,as:重命名 filter:过滤groupBy() ,对记录进行分组sort排序。,并且可以从很多数据源中创建,如结构化文件、外部数据库、Hive

大数据集群环境配置从Hadoop—> ...........—>Hbase

包含hadoop,flume,kafka,hbase,zookeeper,mysql,tomcat,redis的部署流程,适用于单个环境的安装和项目集群环境的安装。

【大数据】搭建Hadoop集群(附一键部署脚本)

汝之观览,吾之幸也!本文主要讲解Hadoop运行环境的搭建(三台虚拟机),一键脚本部署,全自动化,不再需要按照文档一个一个进行配置,脚本执行后就可登录hadoop集群。

超详细Hive总结!!!

超详细Hive总结!!!快来看

hadoop生态圈面试精华之Hadoop基础

hadoop生态圈面试精华之Hadoop基础

重磅发布 , 阿里云全链路数据湖开发治理解决方案

阿里云重磅发布全链路数据湖解决方案,主要包含开源大数据平台E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS等核心产品。

Hive面试题系列-求用户最大连续活跃天数 2

代码】Hive面试题系列-求用户最大连续活跃天数 2。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈