大数据-数据底座架构/数据中台建设

在信息化向数字化转型的过程中,企业积累了海量的数据,并且还在爆发式的增长。数据很多,但是真正能产生价值的数据却很少。数据普遍存在分散,不拉通对齐等问题,缺乏统一的定义及架构,找到想要的,能用的数据越来越难。如何实现数据的汇聚和联接,打破数据孤岛与垄断,就显得格外重要。...............

logstash读取kafka所有topics 自动创建es 索引

logstash读取kafka的topics,根据内容提取指定字段然后自动创建es索引

通过java代码的方式提交任务远程到flink集群

flink远程提交任务

hive复杂类型数据详解—array,map,struct

hive复杂数据类型有三种,map,array,struct。本文会详细介绍三种类型数据的建表、查询、相关函数以及与其他数据类型的相互转换。目录一、简介二、建表语句三、类型构建四、查询array类型map类型struct类型五、与其他数据类型转换将array和map转化为基本数据类型(行转列)基本数

Rabbitmq WebSocket 自动断开问题的解决方案

关于报错,Whoops! Lost connection to ws://XXX.XXX.XXX.XXX:15684/ws在玩rabbitMQ时候,用stompJS从web连接ranbbitMQ时,报了标题的错误消息!

Flink系列Table API和SQL之:创建表环境和创建表

Flink系列Table API和SQL之:创建表环境和创建表

阿里云短信服务

阿里云短信服务,包括一些坑和技巧

vue3.0——数据仓库Pinia介绍、使用pinia、修改状态、订阅修改、getter、action、模块化

Pinia的介绍、使用pinia、修改状态、订阅修改、getter、action、模块化

Kafka图形管理界面Kafka-eagle安装配置详解

Kafka图形管理界面Kafka-eagle安装配置详解

【SpringBoot】整合Kafka集群

【SpringBoot】整合Kafka集群

spark on yarn 的 executor、cores、driver 作用及配置

当然内存空间也不是越大越好,要大了集群分配不出来,yarn 直接将任务 kill 了,不过一定程度上提高资源的申请的确可以提高任务执行的效率。提交的应用程序在 AM 中运行起来就是一个 driver,它构建 sparkContext 对象、DAGScheduler 对象、TaskScheduler

hadoop集群安装及配置详细(亲试无错)

Hadoop集群的安装及其配置

华为数字化转型之道 结语 数字化转型的8个成功要素

华为开展数字化转型的过程中,积累了一些经验和教训,总结起来有如下成功要素。

IDEA Windows下SPARK连接Hive

IDEA Windows下SPARK连接Hive

kylin的介绍

Kylin是一个开源的分布式分析引擎,主要用于快速查询大数据集合。

Hadoop大数据平台搭建(超详细步骤)

Hadoop大数据平台搭建

Hadoop 集群时间同步设置

设置服务器集群的时间同步,一台机器同时间服务器对时,其他机器与这台服务器对时,就是发生断网等情况,也可以保证内部所有服务器都时间统一;时间同步方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间;...

数仓及其维度(分层)建模(ODS DWD DWS DWT ADS)

一. 数仓及其维度1. 什么是数仓?数据仓库,简称数仓,( Data Warehouse )。从逻辑上理解,数据库和数仓没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大。数仓主要是为企业制定决策,提供数据支持的。当业务简单,可以用数据库来存储,分析,制表。

Spark学习笔记(三)

SparkSQL

Hive调优及参数优化(详细版)

Hive调优及参数优化,涵盖:基础配置优化、压缩配置优化、分桶优化、Map Join、Bucket-Map Join、SMB Join、Hive并行操作、Hive索引、数据清洗转换优化、统计分析优化、Hive优化器等等......

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈