Spark中使用scala完成数据抽取任务 -- 总结

任务二:离线数据处理,校赛题目需要使用spark框架将mysql数据库中ds_db01数据库的user_info表的内容抽取到Hive库的user_info表中,并且添加一个字段设置字段的格式 第二个任务和第一个的内容几乎一样。

在 CentOS 上使用 Docker 运行 RabbitMQ

回家家,过大年。。。

Flink 内容分享(十二):Flink在金融行业的应用

目录众安保险用户背景平台概况应用场景未来规划蚂蚁集团主要挑战架构方案核心技术介绍1.热启动技术​编辑 2.K8S集群模式​编辑3.流批一体技术以下内容来自众安保险的Flink架构师的分享众安在线财产保险股份有限公司是中国首家互联网保险公司,众安总部位于上海,不设任何分支机构,完全通过互联网展业。由"

spark-submit 任务提交指定类名错误解决:Error: Failed to load class

在提交spark任务的时候,若 --class参数类名指定错误会让任务无法运行。找到自己需要运行的任务,就可以直接使用spark-submit命令上传任务了。那么如果不会看文件路径的话,如何精准找出自己打包的类名呢?

大数据 DataX 详细安装教程

大数据 DataX 详细安装教程

hiveserver负载均衡配置

hiveserver2的负载均衡配置

zookeeper和nacos区别是什么,注册中心用zookeeper还是nacos

Zookeeper和Nacos都是用于服务发现、配置管理和分布式协调的开源软件。

Flink Watermark和时间语义

当事件流流进 Partition 时会判断新事件流的WM是否大于当前的Partition WM,当大于时就更新 Partition 的时间戳WM为新流入的WM(取最大值),如下1->2象限Partition WM的变化。同时,如下 Task 也维护了一个全局的 WM 表示事件时钟,该值取分区中最小的

解决hive建表中文乱码问题

当hive建表字段注释中出现中文乱码时,可能是因为字符集编码不匹配所导致的。我们可以在建表语句中指定字符集编码来解决这个问题。参数,来指定字符集编码为 UTF-8。参数,来指定字符集编码为 UTF-8。这个参数可用于指定各种 CLI 输出数据的字符集编码,例如控制台输出、日志和报告等。需要注意的是,

kafka支持外网访问

listeners 修改为0.0.0.0 监控所有网卡,advertised.listeners 设置为外网ip,具体如下。advertised.listeners=PLAINTEXT://外网映射ip:9092。2.这个时候需要修改kafka的config中的server.properties中的

【RabbitMQ高级消息可靠性、高可用、延时、消息堆积问题】

修改publisher服务的单元测试类:​​​@Slf4j@Autowired​@Test​​​//设置生产者消息确认机制publish-confirm的回调方法@Overrideif(ack){log.info("消息发送到交换机成功,消息ID:{}", correlationData.getId

hive怎么更新数据

使用INSERT OVERWRITE语句时,首先需要创建一个临时表,将需要更新的数据插入到临时表中,然后使用INSERT OVERWRITE将临时表的数据覆盖到原始表中。使用哪种方法取决于你的需求和数据更新的逻辑。请注意,在Hive中不能直接更新单个记录,而是通过覆盖或插入来更新整个表或部分数据。要

Spark搭建

Spark搭建

Hadoop Single Node Cluster的安装

在本篇文章中将介绍hadoop single node cluster的完整安装过程以及运行hadoop

kafka学习笔记(二)-架构分析

一个partition中包含多个**segment**。一个segment是物理存储消息的最小单元,每个segment包含一定量的消息数据。配置文件中`log.segment.bytes`就定义了segment文件的最大值。segment文件的文件名,是根据下一条消息的偏移量命名的,从而实现了消息的

结合案例详细说明Spark的部分调优手段

当谈到优化 Apache Spark 应用程序时,有一些更加详细和具体的优化策略和技术,可以帮助提高性能并最大化集群资源利用。coalescecachepersistbucketBy这些优化方法需要结合具体的应用场景和需求来实施。根据数据特点、集群配置和任务类型,综合使用这些方法可以显著提高 Spa

学会大数据基础,一篇就够了

本文主要用于大数据基础期末考试,其内容包括Hadoop、hdfs、hbase

kafka高吞吐、低延时、高性能的实现原理

Kafka是大数据领域无处不在的消息中间件,目前广泛使用在企业内部的实时数据管道,并帮助企业构建自己的流计算应用程序。Kafka虽然是基于磁盘做的数据存储,但却具有高性能、高吞吐、低延时的特点,其吞吐量动辄几万、几十上百万,这其中的原由值得我们一探究竟,让我们一起掌握Kafka各种精巧的设计。

Windows详细安装和彻底删除RabbitMQ图文流程

Windows下RabbitMQ安装和彻底删除

谈谈Nacos跟Eureka的区别

Eureka和Nacos都是服务注册与发现的组件,都支持服务注册和服务拉取,都支持服务提供者心跳方式做健康检测,Spring Cloud 封装了 Netflix 公司开发的 Eureka 模块来实现服务治理 ,在传统的rpc远程调用框架中,管理每个服务与服务之间依赖关系比较复杂,管理比较复杂,所以需

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈