trino安装及使用
trino适合多数据源的即席查询,它是把数据通过connector拉取回来,然后使用自己的引擎进行关联运算,所以其速度必然受限于传输速度,不适合跨网络的大数据量的关联查询。像spark之类的查询引擎我们都是把尽量分发到数据存储的机器上,trino是把数据拿回来,这就是他们的差异所在。hive源配置如
Maven的安装与配置(保姆级)
maven安装配置(3.9.0)jdk-17或jdk1.8注意:这里配置的时候,看你电脑是jdk版本多少的,配置其中一个就可以,不是jdk17或者jdk1.8的去百度找找相关的配置文件。下载Maven包可以直接去Maven官网:https://maven.apache.org/我的解压后的路径为:D
大数据技术系列:图解【大数据平台开发】
数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资源管控手段,实现数据的看得见、找得到、管得住、用得好,提升数据质量和数据价值。企业数据治理非常必要,它是企业实现数字化转型的基础,是企业的一个顶层策略,一个管理体系,也是一个技术体系,涵盖战略、组织、文化、方法、制度、流程、技术和工具等多
【大数据趋势】1月24日 流动、固定汇率和货币政策独立性三者的三者选二,A股持续的会上涨。
现在美元1块钱换7人民币,买入7块钱资产,因为放水人民币对内贬值,资产涨到10块,然后汇率被人为控制,所以价格还是1:7,所以可以最终用1.4块钱美元走。 这就是不可能三角下一个场景。这不是傻? 不是,这是在拉动经济和汇率流失之间做出的选择。我们必须先拉一下经济
hadoop集群搭建+hive安装
hadoop集群搭建及hive安装
StarRocks 自增ID实现分页优化
目前StarRocks在不支持自增ID的情况下,对于明细模型的分页查询场景,由于要保证每一次分页查询出来的数据的唯一性,需要我们人为去指定order by的列,无法利用到StarRocks自身的排序键等特性,造成分页查询场景下,性能并不是很好。有没有一种替代方案能够在外部实现一种自增id,保证每个批
Python数据处理数据挖掘(三):关联分析(Apriori算法)
声明:本文为学习笔记,侵权删关联分析:参考啤酒与尿不湿的故事,啤酒和尿不湿本身没有关系,但通过调查买啤酒的人有大概率会买尿不湿,所以啤酒+尿不湿就成了一个销售组合。得出这个销售组合的过程就是关联分析。事务:每条购买信息就是一个事务。项集:一条事务中物品的随机组合产生的集合。一个集合里有几个项,就叫几
虚拟机 Centos7 图形界面的安装及默认
虚拟机的Centos7 图形界面的安装及默认
Hadoop三大框架之HDFS
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System)是一个文件系统
rsync—远程同步
目录一:rsync概述1.1rsync简介1.2rsync同步方式二:rsync特性三:rsync同步源四:rsync与cp、scp对比五:常用rsync命令六:rsync本地复制实例七:配置源的俩种表示方法八:inotify简介九:配置rsync下行同步9.1配置环境9.2将master服务器数据
Hive日期时间函数
1.取得当前日期:select current_date(); --返回类型'yyyy-mm-dd',如今天日期'2020-01-01'2.取得当前日期时间:select current_timestamp(); --返回格式'yyyy-mm-dd hh:mi:ss' 如'2021-07-2
多个一维列表(数组)存入csv文件或excel文件
可以用函数将其存入文件中,下次可以直接调用。
Linux安装Hadoop(图文解说详细版)
0基础Linux安装hadoop
《数字中国建设整体布局规划》充分发挥“数据”生产要素:形成横向打通、纵向贯通、协调有力的一体化推进格局...
关键词:数字中国,数据要素,2522,数字基础设施、数据要素市场化配置、数字技术创新、数字经济、数字政府、数字文化这是继《关于构建数据基础制度更好发挥数据要素作用的意见》(后文简称“数据二十条”)之后,又一具有顶层设计意义的重要文件。如果说近期发布的“数据二十条”建构了我国数据要素领域的基础制度,起
什么是列式存储和行式存储
列式存储:每一列单独存放,数据即是索引。只访问涉及得列,如果我们想访问单独一列(比如NAME)会相当迅捷。一行数据包含一个列或者多个列,每个列一单独一个cell来存储数据。行式存储: 把一行数据作为一个整体来存储。学习:https://blog.csdn.net/qq_43543789/articl
spark性能调优(二):内存
spark性能调优
Flink-----Flink CDC 实现数据实时同步
initial()模式即获取创建表有史以来的日志,但是遇见布置CDC后的日志就报错·latest()模式即获取最新的日志,但运行就报错以上两个错误都是以下显示错误说明提示没有为该表设置日志归档错误原因cdc底层自动将配置的表名转为小写,而oracle日志的表名是大写,导致cdc无法找到配置表的日志,
ES部署-单机部署
ES的安装和Linux配置优化
到底什么是5G LAN?
今天这篇文章,我们来聊聊5G LAN。大家如果对通信技术稍有了解的话,就会发现,5G LAN其实是一个很有意思的概念。对于5G,大家应该都很熟悉,它是4G 的演进,也是目前我们最新的移动通信技术。而对于LAN,大家应该更熟悉。它的全称是local area network,也就是局域网。我们家里的网
Hudi学习01 -- Hudi简介及编译安装
hudi编译和hudi介绍