数仓开发之DWD层(三)
(附:由于篇幅原因,这里就不在展示代码了,直接告诉大家思路)
logstash设置端口密码
logstash设置端口密码
【Hive】函数(UDF篇)
Hive/UDF
大数据时代的小数据神器 - asqlcell
随着单机硬件处理能力的上升,中小企业的大数据是否真的有那么大?如果所谓的大数据能在单机上开箱即用,不需要复杂的基础设施支持,不需要高级的编程技巧。这种提升效率降低成本的好事为什么不用呢?
trino安装及使用
trino适合多数据源的即席查询,它是把数据通过connector拉取回来,然后使用自己的引擎进行关联运算,所以其速度必然受限于传输速度,不适合跨网络的大数据量的关联查询。像spark之类的查询引擎我们都是把尽量分发到数据存储的机器上,trino是把数据拿回来,这就是他们的差异所在。hive源配置如
Maven的安装与配置(保姆级)
maven安装配置(3.9.0)jdk-17或jdk1.8注意:这里配置的时候,看你电脑是jdk版本多少的,配置其中一个就可以,不是jdk17或者jdk1.8的去百度找找相关的配置文件。下载Maven包可以直接去Maven官网:https://maven.apache.org/我的解压后的路径为:D
大数据技术系列:图解【大数据平台开发】
数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资源管控手段,实现数据的看得见、找得到、管得住、用得好,提升数据质量和数据价值。企业数据治理非常必要,它是企业实现数字化转型的基础,是企业的一个顶层策略,一个管理体系,也是一个技术体系,涵盖战略、组织、文化、方法、制度、流程、技术和工具等多
spring cloud stream使用
技术兴起的原因:为了解决系统中不同中间件的适配问题,出现了cloud stream,采用适配绑定的方式,自动给不同的MQ之间进行切换。屏蔽底层消息中间件的差异,降低切换成本,统一消息的编程模型。Spring Cloud Stream为一些供应商的消息中间件产品提供了个性化的自动配置,引用了发布、订阅
【大数据趋势】1月24日 流动、固定汇率和货币政策独立性三者的三者选二,A股持续的会上涨。
现在美元1块钱换7人民币,买入7块钱资产,因为放水人民币对内贬值,资产涨到10块,然后汇率被人为控制,所以价格还是1:7,所以可以最终用1.4块钱美元走。 这就是不可能三角下一个场景。这不是傻? 不是,这是在拉动经济和汇率流失之间做出的选择。我们必须先拉一下经济
Flink MySQL CDC
Flink sqlclient使用方式下载flink-sql-connector-mysql-cdc-2.3-SNAPSHOT.jar放到.注意: flink-sql-connector-mysql-cdc-XXX-SNAPSHOT 版本为开发分支对应的代码。用户需要下载源代码并编译相应的jar。用
hadoop集群搭建+hive安装
hadoop集群搭建及hive安装
StarRocks 自增ID实现分页优化
目前StarRocks在不支持自增ID的情况下,对于明细模型的分页查询场景,由于要保证每一次分页查询出来的数据的唯一性,需要我们人为去指定order by的列,无法利用到StarRocks自身的排序键等特性,造成分页查询场景下,性能并不是很好。有没有一种替代方案能够在外部实现一种自增id,保证每个批
Python数据处理数据挖掘(三):关联分析(Apriori算法)
声明:本文为学习笔记,侵权删关联分析:参考啤酒与尿不湿的故事,啤酒和尿不湿本身没有关系,但通过调查买啤酒的人有大概率会买尿不湿,所以啤酒+尿不湿就成了一个销售组合。得出这个销售组合的过程就是关联分析。事务:每条购买信息就是一个事务。项集:一条事务中物品的随机组合产生的集合。一个集合里有几个项,就叫几
虚拟机 Centos7 图形界面的安装及默认
虚拟机的Centos7 图形界面的安装及默认
Hadoop三大框架之HDFS
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System)是一个文件系统
rsync—远程同步
目录一:rsync概述1.1rsync简介1.2rsync同步方式二:rsync特性三:rsync同步源四:rsync与cp、scp对比五:常用rsync命令六:rsync本地复制实例七:配置源的俩种表示方法八:inotify简介九:配置rsync下行同步9.1配置环境9.2将master服务器数据
Hive日期时间函数
1.取得当前日期:select current_date(); --返回类型'yyyy-mm-dd',如今天日期'2020-01-01'2.取得当前日期时间:select current_timestamp(); --返回格式'yyyy-mm-dd hh:mi:ss' 如'2021-07-2
Spring Cloud五大组件
SpringCloud五大组件:Eureka、Ribbon、Hystrix、Gateway、Config
SpringAMQP - 发布订阅模式
SpringAMQP - 发布订阅模式
数据建模:维度建模
数据建模:维度建模一、数据建模概述二、维度建模1、维度建模过程2、维度建模的基本要素3、维度建模过程举例一、数据建模概述1、数据模型级别概念数据模型:是用一系列相关主题域的集合来描述概要数据需求。概念模型仅仅包括给定的领域和职能中基础和关键的业务实体,同时也给出实体与实体之间关系的描述。逻辑数据模型