Kafka图形管理界面Kafka-eagle安装配置详解
Kafka图形管理界面Kafka-eagle安装配置详解
【SpringBoot】整合Kafka集群
【SpringBoot】整合Kafka集群
spark on yarn 的 executor、cores、driver 作用及配置
当然内存空间也不是越大越好,要大了集群分配不出来,yarn 直接将任务 kill 了,不过一定程度上提高资源的申请的确可以提高任务执行的效率。提交的应用程序在 AM 中运行起来就是一个 driver,它构建 sparkContext 对象、DAGScheduler 对象、TaskScheduler
hadoop集群安装及配置详细(亲试无错)
Hadoop集群的安装及其配置
华为数字化转型之道 结语 数字化转型的8个成功要素
华为开展数字化转型的过程中,积累了一些经验和教训,总结起来有如下成功要素。
IDEA Windows下SPARK连接Hive
IDEA Windows下SPARK连接Hive
kylin的介绍
Kylin是一个开源的分布式分析引擎,主要用于快速查询大数据集合。
Hadoop大数据平台搭建(超详细步骤)
Hadoop大数据平台搭建
Hadoop 集群时间同步设置
设置服务器集群的时间同步,一台机器同时间服务器对时,其他机器与这台服务器对时,就是发生断网等情况,也可以保证内部所有服务器都时间统一;时间同步方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间;...
数仓及其维度(分层)建模(ODS DWD DWS DWT ADS)
一. 数仓及其维度1. 什么是数仓?数据仓库,简称数仓,( Data Warehouse )。从逻辑上理解,数据库和数仓没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大。数仓主要是为企业制定决策,提供数据支持的。当业务简单,可以用数据库来存储,分析,制表。
Spark学习笔记(三)
SparkSQL
Hive调优及参数优化(详细版)
Hive调优及参数优化,涵盖:基础配置优化、压缩配置优化、分桶优化、Map Join、Bucket-Map Join、SMB Join、Hive并行操作、Hive索引、数据清洗转换优化、统计分析优化、Hive优化器等等......
【电商】电商后台系统整体介绍
从三大方面,对电商后台系统进行了整体的介绍
大数据之实时数据分析之Apache Doris数据库
Apache Doris是一款现代 MPP (Massively Parallel Processing大规模并行处理)的分布式 SQL 分析数据库,所谓分析数据库就是将其数据集分布在许多机器或节点上,以处理大量数据,采用 Apache 2.0认证授权。它的前身是原百度 Palo,由百度在2017
HDFS常用命令操作时
HDFS常用命令的实践操作
CDC工具之Canal
CDC 的全称是 Change Data Capture ,在广义的概念上,只要能捕获数据变更的技术,我们都可以称为 CDC 。我们通常所描述的CDC 技术主要是指面向数据库的变更,是一种用于捕获数据库中数据变更的技术。
kafka中topic的创建和查询
kafka topic
一篇文章让你理解 大数据所需要的组件
一篇文章让你理解 大数据所需要的组件
windows安装scala
windows安装scala
大数据常见术语
大数据常见术语一览主要内容包含以下(收藏,转发给你身边的朋友)雪花模型、星型模型和星座模型事实表维度表上钻与下钻维度退化数据湖UV与PV画像ETL机器学习大数据杀熟SKU与SPU即席查询数据湖数据中台ODS,DWD,DWS,DWT与ADST0与T+1用户画像用户画像又称用户角色,作为一种勾画目标用户