一篇文章让你理解 大数据所需要的组件
一篇文章让你理解 大数据所需要的组件
大数据常见术语
大数据常见术语一览主要内容包含以下(收藏,转发给你身边的朋友)雪花模型、星型模型和星座模型事实表维度表上钻与下钻维度退化数据湖UV与PV画像ETL机器学习大数据杀熟SKU与SPU即席查询数据湖数据中台ODS,DWD,DWS,DWT与ADST0与T+1用户画像用户画像又称用户角色,作为一种勾画目标用户
Kafka系列 - 06 Kafka 集群环境搭建(三台服务器)
hadoop-101 虚拟机的 IPADDR 的地址改为:192.168.38.23;hadoop-103 虚拟机的 hostname 的地址改为:hadoop103;kafka集群搭建,需要3台虚拟机环境,但是我目前只安装了一台虚拟机,因此还需要准备两台虚拟机环境,正常情况下应该再安装2台虚拟机,
linux 远程拷贝命令
一、scp命令 --远程拷贝文件Linux scp命令用于linux之间进行复制文件scp 是secure copy 的缩写,scp 是基于ssh登录来进行安全拷贝补充知识:ssh进行登陆ssh 用户名@IP地址scp优势:当服务器的磁盘变为read only system时,可以通过scp将文件移
Hive与HBase之间的区别和联系
首先要知道Hive和HBase两者的区别,我们必须要知道两者的作用和在大数据中扮演的角色概念Hive1.Hive是hadoop数据仓库管理工具,严格来说,不是数据库,本身是不存储数据和处理数据的,其依赖于HDFS存储数据,依赖于MapReducer进行数据处理。2.Hive的优点是学习成本低,可以通
hadoop格式化时报错
Re-format filesystem in Storage Directory root= /data/hadoop/hdfs/name; location= null ? (Y or N)
docker搭建hadoop和hive集群
Dockfile文件的内容解释:基于centos镜像,生成带有spenssh-server、openssh-clients的镜像,用户为root,密码为a123456,镜像维护者(作者)为hadoop。因为集群的服务器之间需要通信,而且每次虚拟机给集群分配的ip地址都不一样,所以需要创建网桥,给每台
hadoop3.3.4集群安装部署
Hadoop集群安装部署
Hadoop集群环境配置搭建
Hadoop集群配置搭建
Hive字符串函数-空格处理
Hive字符串函数-空格处理
从0到1搭建大数据平台之监控
大数据平台之监控系统。
windows安装spark和hadoop
windows安装spark和hadoop
配置Sqoop1.4.7支持Hadoop3
解决Hadoop3无法使用Sqoop的问题
Hive调优策略之SQL优化
介绍了hive如何从sql层面进行调优
Docker安装Hadoop
docker exec -it hadoop bash进入容器。查找hadoop-env.sh的安装路径。配置备份数量,小于等于slave数量。三个容器都要修改如下三个IP映射。
hive的开窗函数篇
hive的开窗函数over()
浅谈Hive SQL的优化
目前团队的数据处理都在Hadoop集群上,一是因为需要处理的数据量都是亿级的,这种规模的数据适合用Hadoop集群并行处理;二是免除了分库分表给查询处理上带来的麻烦。Hive是基于Hadoop的一个数据仓库工具,它将存储在HDFS上的结构化的文件映射成一张关系型数据库表,提供简单的SQL查询功能。本
虚拟机 安装jdk及hadoop单机版
在虚拟机上进行jdk及hadoop单机版安装,对如何配置虚拟机上的环境变量做了详细的描述,以及hadoop安装出现错误如何查找
数仓工具—Hive实战之GenericUDF使用详解(24)
GenericUDF 使用起来相比UDF 更复杂,但是我们也介绍了它支持复杂数据结构,性能更高,需要注意的是GenericUDF是抽象类不是接口,关于GenericUDF的使用的复杂案例可以参考我们的UDAF批量调用外部请求。
大数据技术之Hadoop集群配置
作者简介:大家好我是小唐同学(๑>