序言
2018~2021 年期间,笔者阅读了200+大数据相关的书籍和专栏。
本专栏为笔者,在多年读书笔记的基础上,结合自身的大数据开发心得体会,呕心沥血之作。
来点关注吧,万分感谢!
本专栏姊妹篇
1000个问题搞定大数据技术体系
100个问题搞定Java虚拟机
技术分享 PPT
这里分享一下笔者曾经使用过的关于大数据怎样入门的技术分享 PPT:
大数据从0到1 .pptx
目录结构
- 大数据是什么?
- 大数据有哪些特征?
- 大数据和云计算有什么关系?
- 大数据和人工智能有什么关系?
- 大数据是如何发展起来的?
- 大数据处理的基本流程是什么?
- 数据质量如何评测?
- 什么是ETL?
- 大数据开发主要做什么?
- 大数据技术框架有哪些类型?
- 为什么说数据不动代码动?移动计算比移动数据更划算?
- DAG对大数据处理有什么好处?
- 批处理和流处理如何区分? 有边界数据和无边界数据如何区分?
- 批处理中如何提高CPU利用率?
- 什么是事件时间和处理时间?
- Workflow设计模式指的什么?
- 分布式锁是什么?如何实现?
- 分布式事务是什么?如何实现?
- 分布式锁和分布式事务有什么区别?
- CAP定理是什么?
- BASE理论是什么?
- 分布式系统有哪些衡量指标?
- 一致性模型有哪些?
- SLA是什么?
- 如何预估系统QPS?
- 你怎么看待发布订阅模式的?
- 发布与订阅模式和观察者模式有什么不同?
- 分布式系统数据分片有哪些方式?
- 一致性哈希是什么?
- 为什么要将数据序列化?
- 数据压缩算法该如何选择?
- 分布式系统中序列化框架该如何选择?
- Protobuf是什么?
- Apache Thrift是什么?
- Apache Avro是什么?
- Kryo是什么?
- 列式存储和行式存储有什么区别?
- 列式存储格式该如何选择?
- ORCFile是什么?
- Parquet是什么
- 数据仓库是什么?
- 数据仓库与数据库的区别?
- OLTP和OLAP的区别?
- 数据仓库是如何分层的?
- 数据仓库是如何建模的?
- 什么是事实表和维度表?
- 什么是商业智能(BI)?
- 从系统架构角度出发,服务器该如何分类?
- MPPDB是什么?
- MPPDB和Hadoop有什么区别?
- 数据仓库应该选择哪种服务器架构?
- 并行计算模型有哪些?
- BSP和MapReduce有什么区别?
- OLAP有哪些实现方法?
- Cube技术是什么?
- NoSQL是什么?
- 负载均衡是什么?
- 负载均衡算法有哪些?
- 分布式系统中转发如何实现?
- 大数据资源调度框架有什么作用?
- 资源调度有什么技术难点?
- 多租户技术是什么?
- 你认为传统的Yarn、Mesos调度方案存在哪些缺陷?
- 什么是倒排索引?
- 什么是企业数据?
- 什么是数据湖?为什么需要数据湖?
- 数据湖中数据的生命周期是怎样的?
- 数据仓库、数据集市和数据湖有什么区别?
- 什么是Lambda架构?
- 什么是Kappa架构?
- 如何将Lambda架构应用到数据湖?数据湖中的功能模块有哪些?
- 企业数据湖面临哪些挑战?
- RAID技术到底是什么?
- 为什么需要工作流调度系统?
- 为什么要有消息队列/消息引擎系统?
- 什么是云原生数据库?
- 数据库领域的未来发展趋势是怎样的?
参考文献
- 极客时间专栏《从0开始学大数据》李智慧
- 极客时间专栏《大规模数据处理实战》蔡元楠
- 《云计算中的大数据技术与应用》 梁凡著
- 《大数据开发与应用》青岛英谷教育科技股份有限公司,山东工商学院编著
- 《大数据技术体系详解:原理、架构与实战》董西成著
- 《Hadoop大数据挖掘从入门到进阶实战:视频教学版》邓杰编著
- 《大数据架构详解:从数据获取到深度学习》朱洁,罗华霖编著
- 《Kafka权威指南》(美)妮哈・纳克海德( Neha Narkhede),(美)格温・沙皮拉( Gwen Shapira) (美)托德・帕利诺( Todd Paino)著;薛命灯译》/(美)妮哈・纳克海德( Neha Narkhede),(美)格温・沙皮拉( Gwen Shapira) (美)托德・帕利诺( Todd Paino)著;薛命灯译
- 《Hadoop大数据技术原理与应用》黑马程序员编著
- 《企业数据湖》(印)汤姆斯・约翰(Tomcy John),(印)潘卡・米斯拉(Pankaj Misra)著张世武,李想,张浩林译
- 《大数据技术及应用探究》胡沛,韩璞著
- 《Hadoop & Spark大数据开发实战》肖睿、雷刚跃主编
- CS-Notes
- ClickHouse官网
- ClickHouse深度揭秘
- 什么是分布式事务以及有哪些解决方案?
- 分布式理论(二)——Base 理论
- 分布式系统衡量指标
- 百度百科 顺序一致性模型
- 通俗易懂 强一致性、弱一致性、最终一致性、读写一致性、单调读、因果一致性 的区别与联系
- 分布式系统学习——数据分片
- 带着问题学习分布式系统之数据分片
- 百度百科 一致性哈希
- Apache Thrift系列详解(一) - 概述与入门
- 初探Protostuff的使用
- 高性能的序列化与反序列化:kryo的简单使用
- 大数据小视角2:ORCFile与Parquet,开源圈背后的生意
- 新一代列式存储格式Parquet
- Parquet的那些事(一)基本原理
- 再来聊一聊Parquet 列式存储格式
- MPP(大规模并行处理)简介
- MPP架构
- 百度百科 NoSQL
- 大数据里常见的几种压缩格式压缩
- zstd,未来可期的数据压缩算法
- Is zstd splitabble in hadoop/spark/etc?
- 阿里云李飞飞:什么是云原生数据库
版权归原作者 Shockang 所有, 如有侵权,请联系我们删除。