下一代大数据分布式存储技术Apache Ozone初步研究

如果还在为HDFS上存储海量的小文件而烦恼,不烦多留意号称下一代分布式存储技术Apache Ozone,其诞生初衷就是解决HDFS面临棘手问题,本篇从了解其特性和总体架构,基于开发测试需求通过docker和docker-compose方式启动Ozone本地集群,最后通过命令行接口和兼容hadoop命

Hive-时间日期&trunc-日期与数字截取函数

TRUNC函数为指定元素而截去的日期值。其具体的语法格式如下:TRUNC(date[,fmt])1、current_timestamp() -- 获取时间 2022-10-09 16:00:24.1892、unix_timestamp() -- 获取时间戳 16653024983、select

【Flink】1.Flink集群部署

flink集群部署:standalone和flink-on-yarn

Hadoop常用命令

hdfs dfs -copyFromLocal /local/data/file.txt /hadoop/data :将本地文件上传到hdfs上(原路径只能是一个文件)hadoop dfs -put /local/*.txt /hadoop/path/ :put和 copyFromLoc

实验三:熟悉常用的HBase操作

向表tableName、行row(用S_Name表示)和字符串数组fields指定的单元格中添加对 应的数据valueso其中,fields中每个元素如果对应的列族下还有相应的列限定符,用 “columnFamily: column"表示。创建表,参数tableName 表的名称,字符串数组fiel

【大数据之Hive】五、Hiveserver2服务部署

hiveserver2提供JDBC/ODBC接口,使得用户可以远程访问Hive数据,即作为客户端的代理与Hadoop集群进行交互。hiveserver2部署时需要部署到一个能访问集群的节点上,保证能够直接往Hadoop上提交数据。用户在客户端提交SQL语句时,由hiveserver请求HDFS或者提

Hive中的in、exists和left semi join

Hive中的in、exists和left semi join

hive设置本地执行方式

假如hive中的SQL语句执行时间太长,可以设置本地执行方式,设置本地执行模式可以优化执行速度,数据量小的时候,使用本地模式:。以上这些配置,都可以写在 hive 的conf 下的 .hiverc 文件中,当hive启动的时候,就会加载。在hive的配置文件 hive-env.sh中将一些配置注释

三台异构服务器搭建hadoop HA集群史上最详细方案(HDFS+YARN)

三台异构主机配置hadoop高可用环境,网上见到的HA的少,记录一下

hive的数据导入

insert导出,导出的目录不用自己提前创建,Hive会帮我们自动创建,但是由于是overwrite,所以导出路径一定要写具体,否则很可能会误删数据。insert不支持插入部分字段,并且后边跟select语句时,select之前不能加as,加了as会报错,一定要跟下面的as select区分开。并且

HDFS常用命令

正则匹配OriginalFilePath目录下的文件(夹),批量上传到hdfs的targetFilePath目录下。其中-E表示告诉grep后面是一个正则表达式。查看yarn集群中正在运行的应用,可以看到各个应用的执行状态和进度(progress可能不准确,一直为10%)查看所有处于running状

Hadoop启动后没有namenode进程的解决办法

【代码】Hadoop启动后没有namenode进程的解决办法。

jps命令

当Hadoop集群中出现故障时,可以通过jps命令来查找故障的进程,并排除故障。

[Hive的基本概念之---数据库 ]

《咏柳》唐·贺知章碧玉妆成一树高,万条垂下绿丝绦。不知细叶谁裁出,二月春风似剪刀。

CDH6.3.2-组件安装&安全认证

CDH6.3.2-组件安装&安全认证

大数据技术之Hadoop学习(七)——Hive数据仓库

Hive数据仓库的认识与操作

9、Elasticsearch7.6.1 ES与HDFS相互转存数据-ES-Hadoop

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具,可以让数据在Elasticsearch和Hadoop之间双向移动,无缝衔接Elasticsearch与Hadoop服务,充分使用Elasticsearch的快速搜索及Hadoop批处理能力,实现交互式数据处理。本

Hive--清除/删除Hive表数据

大数据技术指的是用于处理、分析和管理大规模数据集的技术和工具。随着互联网和物联网的普及,数据量不断增大,对数据的处理和分析需求也日益增加,大数据技术应运而生

大数据入门之Presto/Trino

Presto是由Facebook开发的分布式sql查询引擎,用来进行高速、实时的数据查询。

hadoop -- Yarn资源管理

Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container表示。NM是每个节点上的资源和任务管理器,一方面,它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈