Hadoop - overfit.cn

下一代大数据分布式存储技术Apache Ozone初步研究

如果还在为HDFS上存储海量的小文件而烦恼，不烦多留意号称下一代分布式存储技术Apache Ozone，其诞生初衷就是解决HDFS面临棘手问题，本篇从了解其特性和总体架构，基于开发测试需求通过docker和docker-compose方式启动Ozone本地集群，最后通过命令行接口和兼容hadoop命

overfit同步小助手 2023-08-07 20:04:49 0 收藏

Hive-时间日期&trunc-日期与数字截取函数

TRUNC函数为指定元素而截去的日期值。其具体的语法格式如下：TRUNC（date[,fmt]）1、current_timestamp() -- 获取时间 2022-10-09 16:00:24.1892、unix_timestamp() -- 获取时间戳 16653024983、select

overfit同步小助手 2023-08-07 18:04:34 0 收藏

【Flink】1.Flink集群部署

flink集群部署：standalone和flink-on-yarn

overfit同步小助手 2023-08-07 01:04:30 0 收藏

Hadoop常用命令

hdfs dfs -copyFromLocal /local/data/file.txt /hadoop/data :将本地文件上传到hdfs上(原路径只能是一个文件)hadoop dfs -put /local/*.txt /hadoop/path/ :put和 copyFromLoc

overfit同步小助手 2023-08-06 05:04:09 0 收藏

实验三：熟悉常用的HBase操作

向表tableName、行row(用S_Name表示)和字符串数组fields指定的单元格中添加对应的数据valueso其中,fields中每个元素如果对应的列族下还有相应的列限定符，用 “columnFamily： column"表示。创建表，参数tableName 表的名称，字符串数组fiel

overfit同步小助手 2023-08-05 23:04:15 0 收藏

【大数据之Hive】五、Hiveserver2服务部署

hiveserver2提供JDBC/ODBC接口，使得用户可以远程访问Hive数据，即作为客户端的代理与Hadoop集群进行交互。hiveserver2部署时需要部署到一个能访问集群的节点上，保证能够直接往Hadoop上提交数据。用户在客户端提交SQL语句时，由hiveserver请求HDFS或者提

overfit同步小助手 2023-08-05 21:04:03 0 收藏

Hive中的in、exists和left semi join

overfit同步小助手 2023-08-05 12:04:22 0 收藏

hive设置本地执行方式

假如hive中的SQL语句执行时间太长，可以设置本地执行方式，设置本地执行模式可以优化执行速度，数据量小的时候，使用本地模式：。以上这些配置，都可以写在 hive 的conf 下的 .hiverc 文件中，当hive启动的时候，就会加载。在hive的配置文件 hive-env.sh中将一些配置注释

overfit同步小助手 2023-08-05 11:04:17 0 收藏

三台异构服务器搭建hadoop HA集群史上最详细方案（HDFS+YARN）

三台异构主机配置hadoop高可用环境，网上见到的HA的少，记录一下

overfit同步小助手 2023-08-05 07:04:17 0 收藏

hive的数据导入

insert导出，导出的目录不用自己提前创建，Hive会帮我们自动创建，但是由于是overwrite，所以导出路径一定要写具体，否则很可能会误删数据。insert不支持插入部分字段，并且后边跟select语句时，select之前不能加as，加了as会报错，一定要跟下面的as select区分开。并且

overfit同步小助手 2023-08-04 12:04:20 0 收藏

HDFS常用命令

正则匹配OriginalFilePath目录下的文件（夹），批量上传到hdfs的targetFilePath目录下。其中-E表示告诉grep后面是一个正则表达式。查看yarn集群中正在运行的应用，可以看到各个应用的执行状态和进度（progress可能不准确，一直为10%）查看所有处于running状

overfit同步小助手 2023-08-04 08:04:25 0 收藏

Hadoop启动后没有namenode进程的解决办法

【代码】Hadoop启动后没有namenode进程的解决办法。

overfit同步小助手 2023-08-04 00:04:36 0 收藏

jps命令

当Hadoop集群中出现故障时，可以通过jps命令来查找故障的进程，并排除故障。

overfit同步小助手 2023-08-03 23:04:14 0 收藏

[Hive的基本概念之---数据库 ]

《咏柳》唐·贺知章碧玉妆成一树高，万条垂下绿丝绦。不知细叶谁裁出，二月春风似剪刀。

overfit同步小助手 2023-08-03 21:04:23 0 收藏

CDH6.3.2-组件安装&安全认证

overfit同步小助手 2023-08-03 20:04:03 0 收藏

大数据技术之Hadoop学习(七)——Hive数据仓库

Hive数据仓库的认识与操作

overfit同步小助手 2023-08-03 18:04:12 0 收藏

9、Elasticsearch7.6.1 ES与HDFS相互转存数据-ES-Hadoop

ES-Hadoop是Elasticsearch推出的专门用于对接Hadoop生态的工具，可以让数据在Elasticsearch和Hadoop之间双向移动，无缝衔接Elasticsearch与Hadoop服务，充分使用Elasticsearch的快速搜索及Hadoop批处理能力，实现交互式数据处理。本

overfit同步小助手 2023-08-03 13:05:00 0 收藏

Hive--清除/删除Hive表数据

大数据技术指的是用于处理、分析和管理大规模数据集的技术和工具。随着互联网和物联网的普及，数据量不断增大，对数据的处理和分析需求也日益增加，大数据技术应运而生

overfit同步小助手 2023-08-03 10:04:32 0 收藏

大数据入门之Presto/Trino

Presto是由Facebook开发的分布式sql查询引擎，用来进行高速、实时的数据查询。

overfit同步小助手 2023-08-03 10:04:20 0 收藏

hadoop -- Yarn资源管理

Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container表示。NM是每个节点上的资源和任务管理器，一方面，它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态；

overfit同步小助手 2023-08-03 09:04:29 0 收藏