数据同步工具—Sqoop

Sqoop 作为一个数据同步工具,主要用于关系型数据库和Hadoop的数据相互同步。table 模式query 模式job 主要解决了增量同步的元数据(last-value)维护问题,当然本身也可以用来做非增量的同步,ETL 中更常用的增量模式是通过query 来完成的,这是因为query 模式更加

大数据Hadoop之——Apache Hudi 与 Presto/Trino集成

Apache Hudi是一个快速增长的数据湖存储系统,可帮助组织构建和管理PB级数据湖。Hudi通过引入诸如升序、删除和增量查询之类的原语,将流式处理引入到批处理式大数据中。这些功能有助于在统一服务层上更快、更新鲜的数据。Hudi表可以存储在Hadoop分布式文件系统(HDFS)或云存储上,并与流行

Hive架构简述及工作原理

Hive是基于Hadoop的一个数据仓库管理工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL(HQL)查询功能。本质是将SQL转换为MapReduce程序(默认)。直接使用Hadoop MapReduce处理数据所面临的问题: 学习成本高,MapReduce实现复杂查询功能开发难度大,

HDFS架构概述

HDFS架构概述

Hadoop集群的部署,安装和管理(头歌)

我们已经掌握了 Hadoop 单节点的安装与部署,那么分布式集群怎么搭建呢?接下来我们学习 Hadoop 分布式集群搭建。

大数据|Hadoop系统

📚Hadoop介绍

Hive 导出数据到 CSV 文件

spark 导出的是一个目录,我们需要拿到目录下的 csv 文件。最后,按题目要求改成指定路径与名称就可以啦,这里就不操作了。在 spark-shell 中导出。直接在 Hive 界面中进行操作。:以带表头的方式查询。的就是我们的结果文件。

hive中常用的日期处理函数

常用的日期函数

ZooKeeper的安装

zookeeper安装

【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口

问题:在虚拟机启动hadoop集群后,在window浏览器无法访问http://master:50070、http://master:8088等集群监控界面。问题排查:首先在windows里ping一下是否能通:若不能ping通,试一下ping IP地址,这里master的IP地址为192.168.

Centos7搭建hadoop3.3.4分布式集群

最近在学习`hadoop`,本文记录一下,怎样在Centos7系统上搭建一个`3`个节点的`hadoop`集群。

数据开发总结

涵盖较多面经

查看HDFS集群状态

通过UI界面查看hadoop运行状态

HDFS Java API 操作

java API 操作hdfs

hadoop的官网下载和各版本下载方法

不想看具体分析可以直接点击链接下载。1、官网:官网下载2、旧版本下载(官方的archive地址):旧版本下载3、清华大学开源软件镜像站下载(速度较快,只有新版本):清华大学开源软件镜像站具体流程:先贴出hadoop官方地址~hadoophttps://hadoop.apache.org/一般来说,A

Hive拉链表

使用HQL写一个Hive On Tez任务,以便跑出拉链表数据

林子雨大数据技术原理与运用期末复习

大数据预处理方法包括___数据清洗___、___数据集成_____、___数据变换___和___数据规约_____。

大数据系列——什么是hdfs?hdfs用来干什么的?

大数据系列——什么是hdfs?hdfs用来干什么的?

python之lambda-filter-map-reduce作用

lambda:匿名函数,让函数更简洁,有时候妙用无穷;使用方法:lambda 后面直接跟变量,变脸后面是冒号,冒号后面是表达式,表达式的计算结果就是本函数的返回值注意:虽然 lambda 函数可以接收任意多的参数并且返回单个表达式的值,但是 lambda 函数不能包含命令且包含的表达式不能超过一个。

使用IDEA工具,通过Java API 操作 HDFS (文件/目录的操作,含源码,详细操作步骤)

Hadoop文件系统API文档:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/filesystem/index.htmlHadoop整合了众多文件系统,HDFS只是这个文件系统的一个实例,下表整合了一些

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈