【信息科学技术与创新】数字世界 智能系统 人机交互 增强智能 虚拟化趋势与元宇宙浪潮 《元宇宙七大规则》
【信息科学技术与创新】数字世界 智能系统 人机交互 增强智能 虚拟化趋势与元宇宙浪潮 《元宇宙七大规则》
days04-对es分布式搜索引擎进行实战
以上就是对es的简单实践,包括对索引库以及文档的CRUD、最后实现了数据的批处理。
centOS7系统虚拟机节点的搭建
随着计算机的发展,越来越多的人认识到大数据的优点,这时就不得不提Hadoop,Hadoop能够处理海量数据的存储和海量数据的分析计算问题,具有4高优势:(1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。(2)高扩展性:在集群间分配
大数据计算框架及引擎介绍
主流的大数据处理框架包括以下三类五种:1、仅批处理框架:Apache Hadoop2、仅流处理框架:Apache Storm、Apache Samza3、混合框架:Apache Spark、Apache Flink
Flink - ProcessFunction 使用缓存详解
Flink 使用 LRUCache 与 GuavaCache 详解。
第二节HDFS完全分布式集群搭建与配置及常见问题总结
适用于Hadoop中的HDFS完全分布式集群
python大数据之dataframe常用操作
详细讲解了dataframe的常用操作,包含创建,增删改查,算数运算,逻辑运算,常用聚合函数以及lamda函数的使用等
大数据ClickHouse进阶(六):Distributed引擎深入了解
Distributed引擎和Merge引擎类似,本身不存放数据,功能是在不同的server上把多张相同结构的物理表合并为一张逻辑表。注意:创建分布式表是读时检查的机制,也就是说对创建分布式表和本地表的顺序并没有强制要求。有了分布式表之后,我们就可以向分布式表中插入数据,那么分布式表会根据配置的sha
猿创征文|ZooKeeper(伪)集群搭建
3、将Zookeeper解压 ,建立/usr/local/zookeeper-cluster目录,将解压后的Zookeeper复制到以下三个目录。我们会发现,2号服务器启动后依然是跟随者(从服务器),3号服务器依然是领导者(主服务器),没有撼动3号服务器的领导地位。由此得出结论,3个节点的集群,2个
大数据ClickHouse进阶(五):副本与分片
table_name”表示数据表的名称,通常与物理表的名字相同。以上我们创建的person_score表在ClickHouse集群节点node1、node2、node3上都是本地表,插入数据时插入到了对应节点的分片上,查询时也只能查询对应节点上的分片数据,如果我们想要通过一张表将各个ClickHou
Flink - Kafka 下发消息过大异常分析与 Kafka Producer 源码浅析
Flink / Kafka 下发消息过大异常分析与 Kafka Producer 源码浅析。
Delta Lake 是什么?
Delta Lake 是一个开源项目,它可以运行在你现有的数据湖之上,可以在数据湖上构建湖仓一体架构,并且与 Apache Spark API 完全兼容。
Flink 中的时间和窗口(一)
在事件时间语义下,我们不依赖系统时间,而是基于数据自带的时间戳去定义了一个时钟, 用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟,它的前进是靠数 据的时间戳来驱动的。但在分布式系统中,这种驱动方式又会有一些问题。因为数据本身在处理转换的过程中会 变化,如果遇到窗口聚合这样的操作,
Kafka集群部署与测试
Kafka集群部署与测试安装Kafka①、Alt+P 拷贝安装包 cd /opt/moduletar -zxvf /opt/software/kafka_2.11-2.0.0.tgz -C /opt/module/②、修改配置文件vi /opt/module/kafka_2.11-2.0.0/co
湖仓一体电商项目(十一):编写写入DWS层业务代码
DWS层主要是存放大宽表数据,此业务中主要是针对Kafka topic “KAFKA-DWD-BROWSE-LOG-TOPIC”中用户浏览商品日志数据关联HBase中“ODS_PRODUCT_CATEGORY”商品分类表与“ODS_PRODUCT_INFO”商品表维度数据获取浏览商品主题大宽表。Fl
湖仓一体电商项目(十二):编写写入DM层业务代码
DM层主要是报表数据,针对实时业务将DM层设置在Clickhouse中,在此业务中DM层主要存储的是通过Flink读取Kafka “KAFKA-DWS-BROWSE-LOG-WIDE-TOPIC” topic中的数据进行设置窗口分析,每隔10s设置滚动窗口统计该窗口内访问商品及商品一级、二级分类分析
spark3总结——分区数对带有初始值聚合操作的影响
spark3总结——分区数对带有初始值聚合操作的影响
SparkSQL 总结(未完待续)
Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。
Hadoop 集群搭建
一,Hadoop 的安装模式二,基础环境准备-选择操作系统基础环境准备-安装 VMware下载 VMware的平台安装完成后基础环境准备-部署 Ubuntu下载 Ubuntu 18 镜像http://mirrors.aliyun.com/ubuntu-releases/18.04/基础环境准备-部署
国外大佬的 4 个项目 yyds
推荐一位国外全栈开发者大神:Alyssa,在 Github 上有 5.34K 的关注者。她是一名全栈开发者、Sonuum 公司的创始人。被 Maker Mag 评为 2018 最佳女性 Maker,并两次入围 Product Hunt Maker of the Year 决赛。注:Product H