Spark 基本知识介绍
spark基本概念理解
[spark] RDD, DataFrame和DataSet是什么?如何相互转化
简而言之,RDD 是最基本的抽象,DataFrame 是对结构化数据的更高层次抽象,而 Dataset 是在 DataFrame 基础上提供了类型安全性的扩展。在实际使用中,通常优先选择使用 DataFrame 或 Dataset,因为它们更适合进行结构化数据处理和利用 Spark 的优化能力。在
从零开始了解大数据(二):Hadoop篇
Hadoop是一个开源的分布式计算框架,主要用于处理大规模数据集。本文将介绍Hadoop集群的主要组成部分,包括HDFS分布式文件系统和YARN资源管理器,并探讨它们在大数据处理中的作用和功能。
【1-3章】Spark编程基础(Python版)
大数据技术概述、Spark设计与运行原理、Spark环境搭建和使用方法
为什么每一个爬虫工程师都应该学习 Kafka
上面描述的功能,实际上有不少 MQ 都能实现。但为什么是 Kafka 而不是其他呢?因为Kafka 集群的性能非常高,在垃圾电脑上搭建的集群能抗住每秒10万并发的数据写入量。而如果选择性能好一些的服务器,每秒100万的数据写入也能轻松应对。这篇文章通过两个例子介绍了 Kafka 在爬虫开发中的作用。
Flink cdc3.0同步实例(动态变更表结构、分库分表同步)
基于 Flink CDC 3.0 同步 MySQL 到 Doris ,来体验整库同步、表结构变更同步和分库分表同步等功能。
字节跳动 Spark 支持万卡模型推理实践
在云原生化的发展过程中 Kubernetes 由于其强大的生态构建能力和影响力,使得包括大数据、AI 在内越来越多类型的负载应用开始向 Kubernetes 迁移,字节内部探索 Spark 从 Hadoop 迁移到 Kubernetes 对作业的云原生化运行。字节跳动的大数据资源管理架构和 Spar
一百八十二、大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS
大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS
Hive DDL语法
Hive的语法和MySQL大部分都相同。
打包与解包:Go 中 archive 库的实战应用
经过对 Go 语言中archive库的深入探讨,我们了解了如何使用和进行文件的打包、压缩和解压缩。archive库作为 Go 标准库的一部分,为文件的打包和压缩处理提供了强大而灵活的工具,对于优化数据存储和传输具有重要意义。archive。
注册中心Eureka
注册中心Eureka
Kafka中的fetch-min-size、fetch-max-wait和request.timeout.ms配置
Kafka中的fetch-min-size和fetch-max-wait配置
SpringCloud 整合 Canal+RabbitMQ+Redis 实现数据监听
Canal 指的是阿里巴巴开源的数据同步工具,用于数据库的实时增量数据订阅和消费。它可以针对 MySQL、MariaDB、Percona、阿里云RDS、Gtid模式下的异构数据同步等情况进行实时增量数据同步。当前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.
大数据平台/大数据技术与原理-实验报告--部署ZooKeeper集群和实战ZooKeeper
在上步修改配置文件zoo.cfg中,将存放数据快照和事务日志的目录设置为目录data和datalog,因此需要在master机器上创建这两个目录,使用如下命令实现,假设当前目录为以上步骤操作后的所在目录“/opt/so/apache-zookeeper-3.9.1-bin”。由于ZooKeeper集
计算机毕业设计:基于python热门旅游景点数据爬取分析系统+可视化 +大数据(附源码+文档)✅
计算机毕业设计:基于python热门旅游景点数据爬取分析系统+可视化 +大数据(附源码+文档)✅
zookeeper服务启动报错&zookeeper加入到开机自启服务
zookeeper启动报错Error contacting service. It is probably not running.网上搜的防火墙、端口的各种解决方法都尝试了,无果。特此记录解决方法
毕设分享 python大数据房价预测与可视化系统
今天学长向大家介绍一个机器视觉的毕设项目毕设分享 python大数据房价预测与可视化系统项目获取:https://gitee.com/sinonfin/algorithm-sharing对于数据挖掘工程师来说,有时候需要抓取地理位置信息,比如统计房子周边基础设施信息,比如医院、公交车站、写字楼、地铁
Spark大数据分析与实战笔记(第二章 Spark基础-05)
在大数据处理和分析领域,Spark被广泛应用于解决海量数据处理和实时计算的挑战。作为一个快速、可扩展且易于使用的分布式计算框架,Spark为开发人员提供了丰富的API和工具来处理和分析大规模数据集。其中,Spark-Shell是Spark提供的一个交互式工具,它基于Scala语言,使得用户能够更加灵
数据挖掘(Data Mining)第四章课后习题
数据挖掘(Data Mining)第四章课后习题
kafka 集群 KRaft 模式搭建
Apache Kafka是一个开源分布式事件流平台,被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程序Kafka 在2.8版本之后,移除了对Zookeeper的依赖,将依赖于ZooKeeper的控制器改造成了基于Kafka Raft的Quorm控制器,因此可以在不使用ZooKeepe