类比一下,秒懂大数据模式
大数据架构模式,其实与单机开发模式一致,类比一下就会更加清晰。
面试系列-各种组件问一下(二)
大数据面试,各种问一下,已补充答案,欢迎留言补充
数据从业者会不会被ChatGPT取代?我决定问ta本人
最近ChatGPT火遍全网后不少能力都被网友们吹上了天面对如此强大的技术催化了越来越多小伙伴对AI的焦虑近期,它竟对数据分析师“口出狂言”但是,帆软坚信数据人才的发展将始终是数字化转型中的关键要素于是,我们决定亲自发问一探ChatGPT的数据人才观(以下对话100%取自ChatGPT)
Centos7安装配置RabbitMQ
介绍什么是RabbitMQ,以及一些相关知识,和详细演示在Centos7的环境下安装配置
Kafka系统整理 一
kafka系统学习
Python毕业设计 抖音短视频数据分析与可视化 - python 大数据 可视化
🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是🚩基于大数据的抖音短视频数据分析与可视化🥇
hadoop HA高可用集群实战
HA(high available),即高可用(24h不中断服务)实现高可用最关键的策略是消除单点故障。HA严格来说是应该分成各个组件的HA机制hadoop2.0之前,在HDFS集群中NamNode存在单点故障(SPOF)NameNode主要存在以下两个方敏影响HDFS集群。NameNode机器发生
Docker搭建Kafka集群
dokcer搭建kafka集群。
如何确保Kafka消息不丢失
我们知道Kafka对于消息的可靠性可以做到至少一次(at least once)的保证,即消息不会丢失,但有可能重复发送,本文就来分析一下Kafka究竟是如何做到的。可以看出,要想确保Kafka消息不丢失,Consumer、Producer以及Broker都需要做好各自所负责的部分,Producer
dolphinscheduler 3.0.1 数据源中心及使用
海豚调度spark数据源组件spark sql 和 hive sql HikariCP的使用Druid vs HikariCPDruid防sql注入
启动服务提供者报 zookeeper not connected错
今天启动zookeeper的服务提供者后,报 zookeeper not connected错,记录一下解决过程。于是我去检查了一下zookeeper的启动命令窗口,看到zookeeper audit is disabled。第一:zookeeper没有启动好。第二:zookeeper的ip以及端口
信息抽取命名实体识别和关系抽取)
慢慢的将命名实体识别和关系抽取全部都将其搞定都行啦的样子于打算。
大数据处理必备:了解ETL及5个开源工具的优缺点(大数据 小虚竹)
大数据处理必备:了解ETL及5个开源工具的优缺点(大数据 小虚竹)
MQ消息队列详解
记录学习过程
大数据面试重点之kafka(三)
大数据面试重点之kafka(三)
OLTP vs OLAP 区别和联系
但是OLAP本身就不是面向业务交易信息的,不对业务过程负责,并且数据也不会频繁修改,所以是没有完整性约束这一说的。OLAP系统主要是面向分析型应用准备的,因此在底层数据库即数据仓库的设计上通常会采用反三范式的方式,比如Kimball 的维度建模方式,刻意的保留数据冗余,很适合分析查询操作。当然,在O
Hive中的炸裂、窗口函数及示例
Hive中的炸裂函数和窗口函数的基本语法与示例
RabbitMQ (HelloWord 消息应答 持久化 不公平分发 预取值)
RabbitMQ学习笔记
Kafka 开启 SASL/PLAINTEXT 认证及 ACL
Linux 安装 Kafka 并开启 SASL/PLAINTEXT 认证
从多个数据源中提取数据进行ETL处理并导入数据仓库
本文介绍了如何使用Python进行ETL数据处理的实战案例,包括从多个数据源中提取数据、对数据进行清洗和转换,以及将转换后的数据加载到目标系统中进行存储和分析。在实际工作中,ETL是数据处理的重要环节,它可以帮助我们从多个数据源中提取、清洗和整理数据,以便进行更好的数据分析和业务决策。在本次实战案例