一篇文章让你理解 大数据所需要的组件

一篇文章让你理解 大数据所需要的组件

大数据常见术语

大数据常见术语一览主要内容包含以下(收藏,转发给你身边的朋友)雪花模型、星型模型和星座模型事实表维度表上钻与下钻维度退化数据湖UV与PV画像ETL机器学习大数据杀熟SKU与SPU即席查询数据湖数据中台ODS,DWD,DWS,DWT与ADST0与T+1用户画像用户画像又称用户角色,作为一种勾画目标用户

Kafka系列 - 06 Kafka 集群环境搭建(三台服务器)

hadoop-101 虚拟机的 IPADDR 的地址改为:192.168.38.23;hadoop-103 虚拟机的 hostname 的地址改为:hadoop103;kafka集群搭建,需要3台虚拟机环境,但是我目前只安装了一台虚拟机,因此还需要准备两台虚拟机环境,正常情况下应该再安装2台虚拟机,

linux 远程拷贝命令

一、scp命令 --远程拷贝文件Linux scp命令用于linux之间进行复制文件scp 是secure copy 的缩写,scp 是基于ssh登录来进行安全拷贝补充知识:ssh进行登陆ssh 用户名@IP地址scp优势:当服务器的磁盘变为read only system时,可以通过scp将文件移

Hive与HBase之间的区别和联系

首先要知道Hive和HBase两者的区别,我们必须要知道两者的作用和在大数据中扮演的角色概念Hive1.Hive是hadoop数据仓库管理工具,严格来说,不是数据库,本身是不存储数据和处理数据的,其依赖于HDFS存储数据,依赖于MapReducer进行数据处理。2.Hive的优点是学习成本低,可以通

hadoop格式化时报错

Re-format filesystem in Storage Directory root= /data/hadoop/hdfs/name; location= null ? (Y or N)

docker搭建hadoop和hive集群

Dockfile文件的内容解释:基于centos镜像,生成带有spenssh-server、openssh-clients的镜像,用户为root,密码为a123456,镜像维护者(作者)为hadoop。因为集群的服务器之间需要通信,而且每次虚拟机给集群分配的ip地址都不一样,所以需要创建网桥,给每台

hadoop3.3.4集群安装部署

Hadoop集群安装部署

Hadoop集群环境配置搭建

Hadoop集群配置搭建

Hive字符串函数-空格处理

Hive字符串函数-空格处理

从0到1搭建大数据平台之监控

大数据平台之监控系统。

windows安装spark和hadoop

windows安装spark和hadoop

配置Sqoop1.4.7支持Hadoop3

解决Hadoop3无法使用Sqoop的问题

Hive调优策略之SQL优化

介绍了hive如何从sql层面进行调优

Docker安装Hadoop

docker exec -it hadoop bash进入容器。查找hadoop-env.sh的安装路径。配置备份数量,小于等于slave数量。三个容器都要修改如下三个IP映射。

hive的开窗函数篇

hive的开窗函数over()

浅谈Hive SQL的优化

目前团队的数据处理都在Hadoop集群上,一是因为需要处理的数据量都是亿级的,这种规模的数据适合用Hadoop集群并行处理;二是免除了分库分表给查询处理上带来的麻烦。Hive是基于Hadoop的一个数据仓库工具,它将存储在HDFS上的结构化的文件映射成一张关系型数据库表,提供简单的SQL查询功能。本

虚拟机 安装jdk及hadoop单机版

在虚拟机上进行jdk及hadoop单机版安装,对如何配置虚拟机上的环境变量做了详细的描述,以及hadoop安装出现错误如何查找

数仓工具—Hive实战之GenericUDF使用详解(24)

GenericUDF 使用起来相比UDF 更复杂,但是我们也介绍了它支持复杂数据结构,性能更高,需要注意的是GenericUDF是抽象类不是接口,关于GenericUDF的使用的复杂案例可以参考我们的UDAF批量调用外部请求。

大数据技术之Hadoop集群配置

作者简介:大家好我是小唐同学(๑>؂

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈