大数据 Hadoop - overfit.cn

Linux下部署Zookeeper+Hadoop+Hbase集群

overfit同步小助手 2022-06-14 10:52:49 0 收藏

一零零九、Docker搭建全集群环境配置

Docker搭建全集群环境配置

overfit同步小助手 2022-06-13 08:52:29 0 收藏

【hadoop】YARN 应用安全 YARN Application Security

翻译：YARN Application Security任何编写 YARN 应用程序的人都需要了解该过程，以便编写短期应用程序或长期服务。他们还需要在早期开发阶段开始在安全集群上进行测试，以便编写真正有效的代码。YARN 资源管理器 (RM) 和节点管理器 (NM) 合作以使用该用户的身份和访问权限

overfit同步小助手 2022-06-12 11:47:51 0 收藏

【拿走不谢】大数据高效查询神器--bitmap

1.提升 hive 中精确去重性能，代替hive 中的 count(distinct uuid)；2.节省 hive 存储，使用 bitmap 对数据压缩，减少了存储成本；3.提供在 hive 中 bitmap 的灵活运算，比如：交集、并集、差集运算，计算后的 bitmap 也可以直接写入

overfit同步小助手 2022-06-08 09:45:02 0 收藏

hive on spark报错:没有发现类

Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 7abab17

overfit同步小助手 2022-06-07 07:38:21 0 收藏

Centos下安装Hadoop【历时三天亲测有效】

Centos6.8下安装Hadoop2.7，大致分为三个步骤：①虚拟机环境准备②安装JDK③安装Hadoop前提条件：具备Linux操作系统基础，并且已安装虚拟机。

overfit同步小助手 2022-06-07 07:38:07 0 收藏

关于hive中Map join 时大表left join小表的问题

关于hive中Map join 时大表left join小表的问题在hive中，（启用Map join时）大表left join小表，加载从右向左，所以小表会加载进内存，存储成map键值对，通过大表驱动小表，来进行join，即大表中的join字段作为key 来获取value进行join。在MySQ

overfit同步小助手 2022-06-04 07:38:06 0 收藏

大数据综合项目--网站流量日志数据分析系统(详细步骤和代码)

文章目录前言：基本概述Sqoop概述什么是SqoopFlume概述什么是Flume为什么需要flumeHIve概述什么是Hive系统背景：模块开发数据采集使用Flume搭建日志采集系统数据预处理实现数据预处理数据仓库开发数据导出日志分析系统报表展示前言：提示：这里简述我使用的版本情况：ubuntu1

overfit同步小助手 2022-06-02 07:12:12 0 收藏

数据湖（五）：Hudi与Hive集成

Hudi与Hive集成原理是通过代码方式将数据写入到HDFS目录中，那么同时映射Hive表，让Hive表映射的数据对应到此路径上，这时Hudi需要通过JDBC方式连接Hive进行元数据操作，这时需要配置HiveServer2。

overfit同步小助手 2022-05-31 10:12:04 0 收藏

hadoop-3.3.3完全分布式集群搭建

hadoop-3.3.3完全分布式集群搭建前言环境准备软件版本集群规划一、配置jdk环境变量1. 解压jdk2. 修改/etc/profile文件二、hadoop集群搭建1. 关闭防火墙2. 修改主机名3. 添加ip映射4. 配置免密登录5. 修改hadoop配置文件1. 解压2. 配置hadoop

overfit同步小助手 2022-05-29 07:37:53 0 收藏

使用docker搭建hive测试环境

使用docker compose搭建hive测试环境

overfit同步小助手 2022-05-29 07:37:38 0 收藏

hbase 启动失败的解决办法

常见的hbase启动失败问题的解决办法

overfit同步小助手 2022-05-29 07:37:35 0 收藏

flume采集数据直接存到hive中

小白都能学会的flume采集数据到hive的教程

overfit同步小助手 2022-05-29 07:37:30 0 收藏

【大数据分析Hadoop + Spark 】10分钟搭建Hadoop（伪分布式）+ Spark（Local模式）环境

overfit同步小助手 2022-05-29 07:37:25 0 收藏

iceberg Flink操作

数据湖iceberg flink实操

overfit同步小助手 2022-05-28 10:37:52 0 收藏

大数据技术之Hadoop(MapReduce核心思想和工作流程)

文章目录MapReduce 核心思想MapReduce工作流程MapReduce 核心思想MapReduce分为Map阶段和Reduce阶段。Map阶段：前两个MapTask对黄色的区域进行统计，最后一个MapTask对灰色区域进行统计，Map阶段先将数据读到内存，之后对数据进行处理，按照空格将单词

overfit同步小助手 2022-05-28 10:37:45 0 收藏

Hive--时间函数大全

hive时间函数1. current_date()：获取当前格式化日期2. current_timestamp()：获取当前格式化时间3. unix_timestamp()：获取当前unix时间戳4. from_unixtime()：把unix时间戳转化为格式化时间5. to_date(): 当前格

overfit同步小助手 2022-05-26 22:39:01 0 收藏

数据湖概念（一）

数据湖概念一、什么是数据湖数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析对数据进行加工，例如：大数据处理、实时分析、机器学习，以指导做出更好地决策。二、大数据为什么需要数据湖当前基

overfit同步小助手 2022-05-26 08:05:33 0 收藏

数据仓库搭建ODS层

其他内容请关注我的博客！在<项目>专栏里！！！目录一、用户行为数据1.1创建日志表1.2ODS层加载数据脚本二、业务数据2.1hive建表2.2ODS层加载数据脚本一、用户行为数据1.1创建日志表1）创建支持lzo压缩的分区表drop table if exists ods_log;CR

overfit同步小助手 2022-05-25 08:06:18 0 收藏

hadoop启动集群之后没有namenode的一种情况

先说结论吧，一般在网上搜索这个问题都是让重新格式化namenode(当然，格式化之前要记得清空namenode和DataNode文件夹)。但是对于我之前遇到的问题却没法解决。我的做法是：检查你的hadoop的配置文件是否填写正确，我的hadoop的hdfs-site.xml中的主机IP地址未填写正确

overfit同步小助手 2022-05-25 08:05:56 0 收藏