【Spark】架构与核心组件:大数据时代的必备技能(上)
本文旨在深入探讨Apache Spark这一开源大数据处理框架的基础与架构。Spark凭借其高效的内存计算能力、易于使用的API以及丰富的生态系统,已成为大数据处理和分析领域的首选工具。文章首先介绍了Spark的基本概念,包括其起源、发展、应用场景以及与其他大数据处理框架(如Hadoop)的对比。通
【知识整理】产研中心岗位评定标准之大数据岗位
为贯彻执行集团数字化转型的需要,该知识库将公示集团组织内各产研团队不同角色成员的职务“职级”岗位的评定标准;
hive beeline参数及示例用法
beeline 是一个用于连接 HiveServer2 的命令行工具。
Spark(3):Spark运行环境
自己学习时,每次都需要启动虚拟机,启动集群,这是一个比较繁琐的过程,并且会占大量的系统资源,导致系统执行变慢,不仅仅影响学习效果,也影响学习进度,Spark 非常暖心地提供了可以在 windows 系统下启动本地集群的方式,这样,在不使用虚拟机的情况下,也能学习 Spark 的基本使用。所谓的 Lo
软件测试2022年终总结
9、加深测试的认识。在私人企业,人少,如果测试没有绩效压力的话,或者说OKR,其实你是测试经理还是测试主管还是测试专家,还是中级初级测试,干的事差不多都是一样的(反正开发提测,你测试就完了,开发可不管你怎么测试),在我看来没啥区别。数据采集---------->探索------------->研发-
基于协同过滤的电商推荐系统(2):用户对商品的偏好得分
使用协同过滤算法,需要统计用户(User)对物品(Item)的评分(Score),然后依托这些数据进行协同过滤的计算。用户偏好得分 = 行为类型权重 * 行为次数 * 时间衰减系数。
离线数仓(1):什么是数据仓库
数仓面向主题分析的特点在企业中数仓是一个不断维护的工程数仓分层并不局限于经典3层,可以根据自身需求进行调整没有好的架构,只有适合自己业务需求的架构它山之石可以攻玉注:其他 离线数仓 相关文章链接由此进 ->离线数仓文章汇总。...
大数据入门-什么是Kudu
Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的成员之一,专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。