大数据 Hadoop - overfit.cn

Hadoop生态漏洞修复记录

Hadoop、zookeeper、hive漏洞修复

overfit同步小助手 2023-08-09 23:04:45 0 收藏

HDFS介绍

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Cor

overfit同步小助手 2023-08-09 23:04:26 0 收藏

基于 Docker 搭建 Hadoop 分布式及 Docker 基本操作使用

Docker的基础操作

overfit同步小助手 2023-08-09 18:04:20 0 收藏

HDFS学习笔记

对于每一个数据块，NameNode 节点返回保存数据块的数据节点的地址。当Active NameNode的命名空间发生变化的时候，它会把这个变化通知所有JN，有的JN收到信息，有的JN是没有收到信息的，如果大部分JN进程接到信息，就认为这个事件是可信的，如果少数的JN接到信息，就认为这个信息是错误的

overfit同步小助手 2023-08-09 11:04:32 0 收藏

Hadoop中常用端口说明和相关配置文件

overfit同步小助手 2023-08-09 08:04:31 0 收藏

Hbase

HBase（Hadoop DataBase），是一种非关系型分布式数据库（NoSQL），支持海量数据存储（官方：单表支持百亿行百万列）。HBase 采用经典的主从架构，底层依赖于 HDFS，并借助 ZooKeeper 作为协同服务，其架构大致如下：其中，对 HBase 全局有了基本理解后，我认为有几

overfit同步小助手 2023-08-08 23:03:59 0 收藏

hive read time out

2) hiveConnection的socket超时时间通过loginTimeout进行设置，而loginTimeout读取的DriverManager的超时时间，因此，在创建hive连接时需要设置DriverManage的loginTimeout属性。总结：hive中执行SQL的耗时较长，需要增大

overfit同步小助手 2023-08-08 20:03:46 0 收藏

Hive（21）：DML之Update、Delete更新、删除数据

首先，必须明确，你理解的Hive这款软件，定位是什么？是面向事务支持事务的RDBMS?还是面向分析，支持分析的数据仓库。这很重要。Hive是基于Hadoop的数据仓库，面向分析支持分析工具。因此在Hive中常见的操作的就是分析查询select操作。将已有的结构化数据文件映射成为表，然后提供SQL分析

overfit同步小助手 2023-08-08 15:04:02 0 收藏

CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程

CDH-6.3.2详细安装教程，从零到一的详细教程，包括mysql、Java、CM、hive、Spark、Hadoop、zookeeper、kafka、Hue、flume、oozie的安装教程

overfit同步小助手 2023-08-08 00:03:46 0 收藏

下一代大数据分布式存储技术Apache Ozone初步研究

如果还在为HDFS上存储海量的小文件而烦恼，不烦多留意号称下一代分布式存储技术Apache Ozone，其诞生初衷就是解决HDFS面临棘手问题，本篇从了解其特性和总体架构，基于开发测试需求通过docker和docker-compose方式启动Ozone本地集群，最后通过命令行接口和兼容hadoop命

overfit同步小助手 2023-08-07 20:04:49 0 收藏

Hive-时间日期&trunc-日期与数字截取函数

TRUNC函数为指定元素而截去的日期值。其具体的语法格式如下：TRUNC（date[,fmt]）1、current_timestamp() -- 获取时间 2022-10-09 16:00:24.1892、unix_timestamp() -- 获取时间戳 16653024983、select

overfit同步小助手 2023-08-07 18:04:34 0 收藏

【Flink】1.Flink集群部署

flink集群部署：standalone和flink-on-yarn

overfit同步小助手 2023-08-07 01:04:30 0 收藏

Hadoop常用命令

hdfs dfs -copyFromLocal /local/data/file.txt /hadoop/data :将本地文件上传到hdfs上(原路径只能是一个文件)hadoop dfs -put /local/*.txt /hadoop/path/ :put和 copyFromLoc

overfit同步小助手 2023-08-06 05:04:09 0 收藏

实验三：熟悉常用的HBase操作

向表tableName、行row(用S_Name表示)和字符串数组fields指定的单元格中添加对应的数据valueso其中,fields中每个元素如果对应的列族下还有相应的列限定符，用 “columnFamily： column"表示。创建表，参数tableName 表的名称，字符串数组fiel

overfit同步小助手 2023-08-05 23:04:15 0 收藏

【大数据之Hive】五、Hiveserver2服务部署

hiveserver2提供JDBC/ODBC接口，使得用户可以远程访问Hive数据，即作为客户端的代理与Hadoop集群进行交互。hiveserver2部署时需要部署到一个能访问集群的节点上，保证能够直接往Hadoop上提交数据。用户在客户端提交SQL语句时，由hiveserver请求HDFS或者提

overfit同步小助手 2023-08-05 21:04:03 0 收藏

Hive中的in、exists和left semi join

overfit同步小助手 2023-08-05 12:04:22 0 收藏

hive设置本地执行方式

假如hive中的SQL语句执行时间太长，可以设置本地执行方式，设置本地执行模式可以优化执行速度，数据量小的时候，使用本地模式：。以上这些配置，都可以写在 hive 的conf 下的 .hiverc 文件中，当hive启动的时候，就会加载。在hive的配置文件 hive-env.sh中将一些配置注释

overfit同步小助手 2023-08-05 11:04:17 0 收藏

三台异构服务器搭建hadoop HA集群史上最详细方案（HDFS+YARN）

三台异构主机配置hadoop高可用环境，网上见到的HA的少，记录一下

overfit同步小助手 2023-08-05 07:04:17 0 收藏

hive的数据导入

insert导出，导出的目录不用自己提前创建，Hive会帮我们自动创建，但是由于是overwrite，所以导出路径一定要写具体，否则很可能会误删数据。insert不支持插入部分字段，并且后边跟select语句时，select之前不能加as，加了as会报错，一定要跟下面的as select区分开。并且

overfit同步小助手 2023-08-04 12:04:20 0 收藏

HDFS常用命令

正则匹配OriginalFilePath目录下的文件（夹），批量上传到hdfs的targetFilePath目录下。其中-E表示告诉grep后面是一个正则表达式。查看yarn集群中正在运行的应用，可以看到各个应用的执行状态和进度（progress可能不准确，一直为10%）查看所有处于running状

overfit同步小助手 2023-08-04 08:04:25 0 收藏