Spark安装配置

一文搞懂Spark安装步骤及提交流程

数据分析实战项目2:优衣库销售数据分析

数据分析实战项目2:优衣库销售数据分析

嘉明的云计算与大数据学习之大数据综合实验案例

本案例共包含4个实验步骤。(1)本地数据集上传到数据仓库Hive。(2)Hive数据分析。(3)Hive,MySQL、HBase数据互导。(4)利用R进行数据可视化分析。实验整体的流程如下:将数据源抽取到HDFS存储;通过Hive清洗、处理和计算原始数据;HIve清洗处理后的结果,可以存入Hbase

数据仓库性能测试方法论与工具集

数据仓库是数据库的下一代产品形态 —— 如何对数字化转型过程中涌现的数据集合进行有效的存储、分析和利用,继而帮忙企业进行运营决策优化甚至创造出新的获客模式和商业模式形成竞争力,是企业主们亟需解决的问题。在数据价值爆发的时代背景中,数据仓库在千行百业中都有着相应的应用场景。

Flink预加载分区维表,实时更新维表配置信息

总体来讲,关联维表有三个基础的方式:实时数据库查找关联(Per-Record Reference Data Lookup)、预加载维表关联(Pre-Loading of Reference Data)和维表变更日志关联(Reference Data Change Stream),而根据实现上的优化可

Linux虚拟机修改主机名

修改虚拟机主机名

-bash: hadoop: 未找到命令

-bash: hadoop: 未找到命令

ElasticSearch设置密码Windows

D:\ProgramFiles\elasticsearch-7.9.2\config\elasticsearch.yml配置文件。如果提示: future versions of Elasticsearch will require Java 11解决方法。修改D:\ProgramFiles\ela

Docker容器 - 启动报错:No space left on device

Docker container - startup error: no space left on device

Linux解压缩时报错: Error is not recoverable: exiting now

Linux解压缩时报错: Error is not recoverable: exiting now

clickhouse介绍以及安装

click house数据库介绍以及安装

Flink SQL之Interval Joins

区间是双流join的优化,基于处理时间或事件时间,在一定时间区间内数据,相同的key进行join(支持 Batch\Streaming)。Interval Join 可以让一条流去 Join 另一条流中前后一段时间内的数据。对于stream查询,时间区间oin只支持有时间属性的 append-onl

Hadoop面试题十道

Hadoop面试题十道

什么是EC, EC与多副本的对比分析

而在分布式存储系统中,HDFS(Hadoop Distributed File System)为了保证数据的可靠性默认数据存储策略是3副本,即在写入数据的时候,会占用该数据大小3倍的空间,这样就造成了大量的空间浪费。如果把n+m份数据分布在存储系统的不同节点上,那么任意小于等于m个节点故障(m份数据

DBeaver之MYSQL驱动安装

DBeaver安装mysql数驱动

全国31省份双碳经济数据(2005-2020年)

1]Wang, C., Liu, J., Mao, Q., Xu, C., Zhang, Y., & Dai, Y. (2021). 从绿色增长角度评估中国工业部门碳强度减排政策的效果. 清华大学学报(自然科学版), 61(1), 31-38.[2]Liu, Y., Zhang, Y., Xu, Y

Hbase的bulkload流程与实践

通常MapReduce在写HBase时使用的是方式,在 reduce 中直接生成 put 对象写入HBase,该方式在大数据量写入时效率低下(HBase 会 block 写入,频繁进行 flush、split、compact 等大量 IO 操作),并对HBase节点的稳定性造成一定的影响(GC 时间

Git 快速入门

Git是一个分布式版本控制工具,主要用于管理开发过程中的源代码文件 (Java类、xml文件、html页面等)在软件开发过程中被广泛使用Git 仓库分为两种:1. 本地仓库:开发人员自己电脑上的 Git 仓库2. 远程仓库:远程服务器上的 Git 仓库

mysql插入数据会失败?为什么?

ASCII编码支持数字和字母。大佬们为了支持中文引入了GB2312编码格式,其他国家的大佬们为了支持更多语言和符号,也引入了相应的编码格式。为了统一这些各种编码格式,大佬们又引入了unicode编码格式,而utf-8则在unicode的基础上做了优化,压缩了空间。mysql默认的utf8字符集,其实

文献回顾 | 你还在这样使用工业企业数据库吗?

众所周知的是,中国工业企业数据库是国内外学者研究我国企业经营状况与问题的主要数据库,且是目前我国体量最大、指标最全面的可获得企业级数据库。基于该数据库,已有大量国内外经济学者进行了相关研究,主题涵盖了企业理论、产业组织理论、公司金融、国际贸易等诸多学科。如《中国工业企业数据库的使用现状与潜在问题》所

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈