大数据 - overfit.cn

RabbitMQ进阶学习

每个只能配置一个因此我们可以在配置类中统一设置。@[email protected]("触发return callback,");});由于每个消息发送时的处理逻辑不一定相同，因此ConfirmCallback需要在每次发消息时定义。具体来说，是在调用RabbitTemplate中的co

overfit同步小助手 2024-03-10 03:03:12 0 收藏

【flink番外篇】13、Broadcast State 模式示例-广播维表（2）

系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。3、Flik Table API和S

overfit同步小助手 2024-03-10 02:03:53 0 收藏

Docker for windows 下 Kafka(kraft模式) 安装部署

KAFKA_KRAFT_CLUSTER_ID=iZWRiSqjZAlYwlKEqHFQWI #哪一，三个节点保持一致。# 定义kafka服务端socket监听端口（Docker内部的ip地址和端口）#定义外网访问地址（宿主机ip地址和端口。# 设置broker最大内存，和初始内存。# 标红处修改为自

overfit同步小助手 2024-03-10 01:03:54 0 收藏

基于RabbitMQ的RPC通信

当需要调用局域网中的服务时,可以用frp进行穿透,也可以在公网搭建RabbitMQ服务器做消息中转,本文演示了这个步骤。

overfit同步小助手 2024-03-10 01:03:51 0 收藏

Spark: 检查数据倾斜的方法以及解决方法总结

如果预先知道数据分布不均，可以使用自定义分区器来优化数据分布，从而避免数据倾斜。以上方法可以帮助检测和分析Spark作业中可能存在的数据倾斜问题。在发现数据倾斜后，可以采取相应的优化措施，比如调整并行度、使用广播变量、重新设计数据分区策略等，来减轻或解决数据倾斜的问题。

overfit同步小助手 2024-03-10 01:03:42 0 收藏

Flink性能优化小结

可以通过开启缓冲消胀机制来简化 Flink 网络的内存配置调整。您也可能需要调整它。如果这不起作用，您可以关闭缓冲消胀机制并且人工地配置内存段的大小和缓冲区个数。针对第二种场景，我们推荐：使用默认值以获得最大吞吐减少内存段大小、独占缓冲区的数量来加快 checkpoint 并减少网络栈消耗的内存量。

overfit同步小助手 2024-03-10 00:03:36 0 收藏

毕设成品基于大数据情感分析的网络舆情分析系统(源码+论文)

Python下有多款不同的 Web 框架，Django是最有代表性的一种。许多成功的网站和APP都基于Django。Django是一个开源的Web应用框架，由Python写成。Django采用了MVC的软件设计模式，即模型M，视图V和控制器C。

overfit同步小助手 2024-03-10 00:03:29 0 收藏

hadoop之HDFS高可用环境搭建和基础使用

Hadoop分布式文件系统(HDFS)是一个分布式文件系统，设计用于运行在商用硬件上。它与现有的分布式文件系统有许多相似之处。然而，与其他分布式文件系统的区别是显著的。HDFS是高度容错的，设计用于部署在低成本的硬件上。HDFS提供对应用程序数据的高吞吐量访问，适用于具有大数据集的应用程序。HDFS

overfit同步小助手 2024-03-09 23:03:52 0 收藏

微服务—RabbitMQ高级（业务在各方面的可靠性）

本文主要介绍了如何通过确保生产者、消息队列和消费者的可靠性，来保障支付服务和交易服务之间订单状态的一致性。

overfit同步小助手 2024-03-09 23:03:48 0 收藏

电商风控系统（flink+groovy+flume+kafka+redis+clickhouse+mysql）

需要使用的编写然后其它技术进行各种数据的存储及处理。

overfit同步小助手 2024-03-09 22:03:24 0 收藏

如何对 Spark 进行全方位性能调优？

根据课时 11 的内容，第 1 个配置是 Map 端输出的中间结果的缓冲区大小，默认 32K，第二个配置是 Map 端输出的中间结果的文件大小，默认为 48M，该文件还会与其他文件进行合并。对于那种分组统计的任务，可以通过两阶段聚合的方案来解决，首先将数据打上一个随机的键值，并根据键的哈希值进行分发

overfit同步小助手 2024-03-09 20:03:42 0 收藏

Kafka connect

注：这里的topic 是提前创建好的student-student,也可以不创建，他自己生成，但指定的时候只能去指定前缀。，这里用的mysql 8.0.26 、ojdbc8-23.3.0.23.09,注：这里窗口会被占用，不想被占用,用 nohup 启动。启动zookeeper 、 kafka

overfit同步小助手 2024-03-09 19:03:53 0 收藏

flink类加载器原理与隔离（flink jar包冲突）

Classpath是JVM用到的一个环境变量，它用来指示JVM如何搜索Class。因为Java是编译型语言，源码文件是.java，而编译后的.class文件才是真正可以被JVM执行的字节码。因此，JVM需要知道，如果要加载一个com.dtstack.HelloWorld的类，应该去哪搜索对应的Hel

overfit同步小助手 2024-03-09 19:03:50 0 收藏

大数据之spark

Apache Spark™是一个多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。Spark最初由美国加州大学伯克利分校的。

overfit同步小助手 2024-03-09 18:03:48 0 收藏

Spark技术03直播笔记

spark启动与使用、Anaconda安装以及Jupyter安装、spark里面最简单的记录总数的一个计算、Pycharm词频统计

overfit同步小助手 2024-03-09 17:03:57 0 收藏

大数据开发（Hadoop面试真题-卷七）

具体来说，Map阶段输出的每个键值对都会根据键的哈希值被分配到不同的分区中，同一个键的所有值都会被发送到同一个分区中。Combiner是在Mapper阶段对输出的键值对进行合并和压缩，减少了传输到Reduce阶段的数据量。总的来说，Map的分片大小是根据多个因素综合考虑的，包括文件大小、集群配置、硬

overfit同步小助手 2024-03-09 16:03:31 0 收藏

kafka三节点集群2.8.0平滑升级到3.4.0过程指导

Apache Kafka作为常用的开源分布式流媒体平台，多用于作为消息队列获取实时数据，构建对数据流的变化进行实时反应的应用程序，已被数千家公司用于高性能数据管道、流分析、数据集成和任务关键型应用程序。

overfit同步小助手 2024-03-09 16:03:27 0 收藏

【Zookeeper】ZooKeeper的一些重要功能和作用

随着分布式系统的普及和应用场景的不断增加，构建可靠、高效的分布式系统变得愈发重要。然而，分布式环境下的协调与管理面临着诸多挑战，例如数据一致性、节点故障处理等。在这样的背景下，ZooKeeper应运而生，作为一种可靠的分布式协调服务，为开发者提供了强大的工具和机制，帮助构建高性能、高可靠性的分布式系

overfit同步小助手 2024-03-09 16:03:23 0 收藏

【Flink】Flink各版本及新特性

在流式 SQL 查询中，一个最经常使用的是定义时间窗口。Flink 1.13 中引入了一种新的定义窗口的方式：通过 Table-valued 函数。这一方式不仅有更强的表达能力（允许用户定义新的窗口类型），并且与 SQL 标准更加一致。Flink 1.13 在新的语法中支持 TUMBLE 和 HOP

overfit同步小助手 2024-03-09 15:03:56 0 收藏

干货丨“看过这篇文章的人都学会Spark了”

Spark是一个用于大规模数据处理的统一计算引擎。Spark是一种快速、通用、可扩展的大数据分析引擎。注意：Spark不仅仅可以做类似于MapReduce的离线数据计算，还可以做实时数据计算，并且它还可以实现类似于Hive的SQL计算，等等，所以说它是一个统一的计算引擎。

overfit同步小助手 2024-03-09 15:03:49 0 收藏