Spark核心知识要点(八)Shuffle配置调优
Spark核心知识要点(八)Shuffle配置调优
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
上节研究了Spark的RDD的Super Word Count程序,实现了将计算结果写入到MySQL中。本节研究Spark的高阶编码、RDD的依赖关系,RDD的持久化、RDD的缓存机制。RDD任务切分中间分为:Driver program、Job、Stage(TaskSet) 和 Task。Dri
大数据-Big Data(一):概述与基础
在当今数字化时代,大数据(Big Data)已成为各行各业的核心驱动力。从商业决策到科学研究,数据的规模和复杂性日益增加。本文旨在深入探讨大数据的概念、基础技术及其在各个领域的应用,帮助读者全面理解大数据的基本理论和实践方法。
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
上节我们看了Kafka的核心架构概念,Producer、Consumer、Topic等等,本节我们下载安装配置部署Kafka服务器,并启动Kafka,前置依赖需要Java和ZooKeeper。Kafka在3版本以下都是需要ZooKeeper来做协调器的,在3版本以上,Kafka实现了自己的协议去做高
Hologres+Flink企业级实时数仓核心能力介绍
Hologres+Flink企业级实时数仓核心能力介绍
git远程仓库限额的解决方法——大文件瘦身
Git作为世界上最优秀的分布式版本控制工具,也是优秀的文件管理工具,它赋予了项目成员对项目进行远程协同开发能力,因此受到越来越多的行业从业人员的喜爱。很多优秀的项目管理平台,比如国内的Gitee,国外的Github,也都是以Git为核心操作。
新型大数据架构之湖仓一体(Lakehouse)架构特性说明——Lakehouse 架构(一)
数据仓库和数据湖一直是实现数据平台最流行的架构,然而,过去几年,社区一直在努力利用不同的数据架构方法来实现数据平台。本文就是对当下非常流行的湖仓一体架构的特性说明。
Spark-SparkContext类解析
SparkDriver 的初始化始终围绕着 SparkContext 的初始化。SparkContext 可以算得上是 Spark 应用程序的发动机引擎,SparkContext 初始化完毕,才能向 Spark 集群提交应用程序,而 SparkContext 的配置参数则由 SparkConf 负责
Elastic:监控不同于可观察性的 3 个原因
监控是收集、提取和分析应用程序、基础设施和/或云遥测数据以评估系统运行状况的过程。监控依赖于指标,例如 CPU 或内存使用率和网络流量、日志和跟踪。这些数据使 IT 团队能够实时跟踪其基础设施和应用程序的性能和可用性。监控工具和平台可以提供仪表板和警报,并具有报告功能,以帮助 IT 团队监控组件、识
基于Python大数据的电商产品评论的情感分析设计与实现,包括lda主题分析和情感分析
这样的数据分析和可视化思路旨在深入挖掘评论数据的信息,了解评论的特点、趋势和群体分布,为进一步的业务决策提供有价值的参考和支持。通过使用requests库实现了网络请求和数据获取,使用json库实现了JSON数据的解析,使用csv库实现了数据的写入,结合for循环和函数的调用,实现了对电商产品评论数
(一)Java日志大数据(单机环境)学习笔记——开篇
(一)Java日志大数据(单机环境)学习笔记——开篇
《数据资产管理核心技术与应用》读书笔记-第三章:数据血缘
Hive 自身的血缘在其源码中主要通过org.apache.hadoop.hive.ql.hooks.LineageLogger.java 来输出,org.apache.hadoop.hive.ql.hooks.LineageLogger.java代码中主要处理的过程如下图所示,血缘主要通过edge
全国各城市POI数据汇总(2012-2023年)
全国各城市-POI兴趣点数据,POI是“Point of Interest”的缩写,也被称为“兴趣点”。这个概念广泛应用于地理信息系统、导航软件、地图服务以及一些社交媒体和商业平台中。POI是指地图上标记的特定地点,这些地点对用户具有一定的兴趣或实用性,比如医疗、汽车、文化、交通、酒店、餐饮等。:P
Flink1.19源码深度解析-ClusterEntrypoint
如果一个main()方法中有多个env.execute()/executeAsync(),在Application模式下,这些作业会被视为属于同一个应用,在同一个集群中执行(如果在Per-Job模式下,就会启动多个集群)。对于per-job模式,jar包的解析、生成JobGraph是在客户端上执行的
Azkaban-3.84.4集群部署——安装篇(文章结尾附带网盘下载链接)
Azkaban-3.84.4集群部署——安装篇(文章结尾附带网盘下载链接)
MLP简介
定义:MLP是一种前馈神经网络,由多个神经元层组成,包括输入层、一个或多个隐藏层以及输出层。每一层的神经元都与下一层的所有神经元全连接,通过权重和偏差进行信息传递。结构:MLP至少包含三层网络结构,即输入层、隐藏层(可以有多个)和输出层。输入层负责接收原始数据,隐藏层负责对数据进行中间特征的提取,输
Dinky 让Flink作业纵享丝滑
Dinky的部署方式还有很多:二进制可执行包部署,源码编译部署,docker-compose部署,k8s部署等,支持多种flink模式提交任务,使用flink支持整库同步、增量和实时CDC数据同步,还集成DolphinScheduler(小海豚调度平台),支持主流的关系型数据库、OLAP数据库和数据
数据加密存储:重要文件怎么加密?一文全搞懂!
数据已成为企业和个人最宝贵的资产之一。然而,随着网络攻击和数据泄露事件的频发,如何保护数据安全成为了每个人都需要面对的重要问题。数据加密存储作为保障数据安全的重要手段之一,其重要性不言而喻。本文将详细介绍数据加密存储的基本概念、常见的加密方式以及如何对重要文件进行加密,帮助您全面理解并掌握数据加密存
SQL插入、更新和删除数据
TRUNCATE是删除表中所有记录的另一种语句,与DELETE语句相比,其运行效率非常高,因为使用TRUNCATE语句时,DBMS不会写入任何内容,换个角度说,就是TRUNCATE语句所做的修改是不能回滚的。如果创建的视图对用户用户隐藏列,则隐藏的列的值都为NULL,也会导致在视图中查不到新插入的记
Hadoop 简介(五)
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力,解决海量数据的存储及海量数据的分析计算问题。广义上的Hadoop是指Hadoop的整个技术生态圈;狭义上的Hadoop指的是其核心三大组件,包括HDFS、YA