大数据 - Doris系列《一》- Doris简介

Doris是一款开源的分布式OLAP(联机分析处理)数据库引擎,旨在支持高并发、大规模的数据查询和分析需求。本篇文章将深入介绍OLAP和OLTP的区别,明确它们在用户行为日志数据场景中的应用。我们将比较OLAP和OLTP在处理大规模数据时的性能和优势,并探讨开源OLAP引擎的选择。

智慧工地安全生产与风险预警大平台的构建,需要哪些技术?

EasyCVR系统可将工地范围内的监控设备进行快速接入,通过视频监控,还可对工地进行远程、实时的高清视频直播观看、录像、回看、查询、告警等,极大提高工地安防能力。

hadoop 3 完全分布式+历史服务器

hadoop 3 完全分布式+历史服务器

spark君第一篇图文讲解Delta源码和实践的文章

手绘了下图所示的kafka知识大纲流程图(xmind文件不能上传,导出图片展现),但都可提供源文件给每位爱学习的朋友《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》点击传送门,即可获取!手绘了下图所示的kafka知识大纲流程图(xmind文件不能上传,导出图片展现),但都

一篇文章完成Hbase入门

HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。

Flink RocksDB状态后端优化总结

截至当前,Flink 作业的状态后端仍然只有 Memory、FileSystem 和 RocksDB 三种可选,且 RocksDB 是状态数据量较大(GB 到 TB 级别)时的唯一选择。RocksDB 的性能发挥非常仰赖调优,如果全部采用默认配置,读写性能有可能会很差。但是,RocksDB 的配置也

大数据实验四-MapReduce编程实践

本实验使用了MapReduce框架实现了多个文本文件中的WordCount词频统计功能。通过编写Map处理逻辑,将每个文本文件中的单词进行拆分并统计数量。在Reduce处理逻辑中,对相同的单词进行合并统计,并输出最终结果。在main方法中,设置了作业的配置信息、任务类型、输入输出路径等。实验结果展示

Flink面试(2)

1) CheckpointCoordinator(检查点协调器) 周期性的向该流应用的所有source算子发送 barrier(屏障)。2) 当某个source算子收到一个barrier时,便暂停数据处理过程,然后将自己的当前状态制作成快照,并保存到指定的持久化存储中,最后向CheckpointCo

实验2-spark编程

(1)通过实验掌握Spark的基本编程方法;(2)熟悉RDD到DataFrame的转化方法;(3)熟悉利用Spark管理来自不同数据源的数据。

Flink CDC整库同步

Flink CDC整库同步

大数据学习之Flink,了解Flink的多种部署模式

应用模式是对单作业模式的优化,不管是会话模式还是单作业模式,代码都是在客户端是进行执行的,然后由客户端提交给JobManager的,这种方式下客户端会比较耗资源,因为需要下载依赖和发送二进制文件到JobManager。会话模式就是在作业提交之前通过启动集群并创建会话,我们通过这个会话提交任务,所有的

深入理解Spark BlockManager:定义、原理与实践

Spark是一个开源的大数据处理框架,其主要特点是高性能、易用性以及可扩展性。在Spark中,BlockManager是其核心组件之一,

Flink源码分析(5)JobMaster启动源码分析

​ Flink JobMaster源码启动入口从Dispatcher.runJob()方法处开始,下面让我们一起进入到JobMaster的源码分析中。这里启动jobmaster服务,注册心跳同时创建了监听服务,在jobmaster内部创建了slotpool,用于维护整个任务的资源。内执行了jobgr

Flink Stream API实践

Flink Stream API实践

数据仓库 vs 数据湖 vs 湖仓一体:如何基于自身数据策略,选择最合适的数据管理方案?

一文读懂数据仓库、数据湖、湖仓一体的区别,找准更适合的数据策略。结合大型视频流平台、电商、医疗等行业场景深入剖析。

查看Git用户名/密码/邮箱,及设置git配置

git config --global user.email "xxxx.com邮箱"git config --global user.password "xxxxx密码"git config --global user.name "xxxx名称"查看密码: git config user.pass

spark实验三-spark进阶编程

掌握使用spark自定义分区掌握打包spark工程掌握通过spark-submit提交应用实验说明先有一份某年度中国女排集训运动员数据文件 Volleyball_Plaryer.csv ,数据字段说明如下表所示现要求在IntelliJ IDEA 中进行spark编程,通过自定义分区实现将运动员按照所

【大数据面试】Flink面试题附答案

1、背压问题2、Flink是如何支持批流一体的3、Flink任务延迟高,想解决这个问题,你会如何入手4、Flink的监控页面,有了解吗,主要关注那些指标?5、你们之前Flink集群规模有多大?部署方式是什么?你了解哪些部署方式?6、Flink如何做压测和监控7、Flink checkpoint 的相

MongoDB分片:打造高性能大数据与高并发处理的完美解决方案

MongoDB 分片是一种有效的数据水平扩展方法,可以帮助应对大数据量和高并发访问的需求。通过合理配置和管理分片集群,可以实现系统的高性能、高可用性和可扩展性。在实际应用中,需要根据具体场景和需求,选择合适的分片键和配置方案,以实现最佳的系统性能和稳定性。

Spark实战项目:电商数据分析

1.背景介绍1. 背景介绍电商数据分析是一项非常重要的技能,它可以帮助企业了解消费者行为、优化商品推荐、提高销售额等。随着数据规模的增加,传统的数据处理方法已经无法满足需求。因此,需要一种高效、可扩展的大数据处理框架来处理这些复杂的数据。Apache Spark是一个开源的大数据处理框架,它可以处理

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈