大数据 - overfit.cn

八股文系列Spark

两者并没有大的差别。都是将 mapper（Spark 里是 ShuffleMapTask）的输出进行 partition，不同的 partition 送到不同的 reducer（Spark 里 reducer 可能是下一个 stage 里的 ShuffleMapTask，也可能是 ResultTas

overfit同步小助手 2024-07-04 03:03:53 0 收藏

kafka 消费者 API 使用总结

应用程序使用KafkaConsumer向Kafka订阅主题，并从订阅的主题中接收消息。不同于从其他消息系统读取数据，从Kafka读取数据涉及一些独特的概念和想法。如果不先理解这些概念，则难以理解如何使用消费者API。本文将先解释这些重要的概念，然后再举几个例子，演示如何使用消费者API实现不同的应用

overfit同步小助手 2024-07-04 01:03:49 0 收藏

RabbitMQ延迟消息

第二种假设第一条消息的过期时间为30s 第二条消息为10s 但是因为实现方式问题, 队列为先进先出 ,所以只有第一条30s消费完后才会消费10s的消息所以是满足不了场景。原理: 发送带有过期时间的消息到正常队列中,但是没有消费者,不进行消费,等待消息超时后会被自动投放到死信队列中,消费者直接消费

overfit同步小助手 2024-07-03 23:03:45 0 收藏

Java的Spark与流式大数据处理

1.背景介绍1. 背景介绍随着数据的增长和复杂性，传统的批处理技术已经无法满足现代大数据处理的需求。流式计算技术成为了处理实时大数据的主流方式。Apache Spark是一个开源的流式大数据处理框架，它可以处理批量数据和流式数据，并提供了丰富的数据处理功能。在本文中，我们将深入探讨Java的Spar

overfit同步小助手 2024-07-03 22:03:45 0 收藏

图神经网络实战（13）——经典链接预测算法

链接预测 (Link prediction) 可以帮助我们理解和挖掘图中的关系，并在社交网络、推荐系统等领域提供更准确的预测和决策支持。为了解决链接预测问题，研究者们提出了多种方法。本节将介绍基于局部和全局邻域的启发式方法。

overfit同步小助手 2024-07-03 22:03:39 0 收藏

Kafka详解

consumer 提交offset的时候，kafka Offset manager会首先追加一条新的conmit消息到 _consumer_offset topic中，然后更新对应的缓存，读offset时从缓存中读取，而不是直接读取 _consumer_offset topic。如查找368801的

overfit同步小助手 2024-07-03 21:03:21 0 收藏

Python面试：消息队列（RabbitMQ、Kafka）基础知识与应用

消息队列（Message Queue，MQ）作为一种异步通信机制，在现代分布式系统中扮演着关键角色，能够实现系统解耦、削峰填谷、数据流处理等功能。本篇博客将深入浅出地探讨Python面试中关于RabbitMQ与Kafka的常见问题、易错点以及应对策略，并结合实例代码进行讲解。深入理解RabbitMQ

overfit同步小助手 2024-07-03 20:04:17 0 收藏

【图解大数据技术】Hadoop、HDFS、MapReduce、Yarn

MapReduce是一个分布式离线计算框架，专门用于处理大数据场景中与实时性无关的一些离线计算任务。MapReduce的数据输入一般是HDFS，然后经过InputFormat进行输入格式化，变成格式；然后执行用户实现的Mapper类型的map方法，进行数据映射，映射处理的结果也是格式；然后执行一个s

overfit同步小助手 2024-07-03 19:03:18 0 收藏

【HBase入门与实战】一文搞懂HBase!_hbase入门与实践

定义是一个面向列存储的NoSQL数据库是一个分布式HashMap，底层数据是Key-Value格式使用HDFS作为存储并利用其可靠性什么是【分布式HashMap】？HashMap的本质是用一个简单的值形式映射一个复杂的值形式。HBase通过一个RowKey提取该RowKey下多个列族下多个列的多个值

overfit同步小助手 2024-07-03 18:03:48 0 收藏

基于大数据+爬虫颈椎病预防交流与数据可视化分析平台设计和实现(源码+LW+部署讲解)

程序上交给用户进行使用时，需要提供程序的操作流程图，这样便于用户容易理解程序的具体工作步骤，现如今程序的操作流程都有一个大致的标准，即先通过登录页面提交登录数据，通过程序验证正确之后，用户才能在程序功能操作区页面操作对应的功能。程序操作流程图首先前端通过Vue和axios发送HTTP请求到后端的登

overfit同步小助手 2024-07-03 18:03:45 0 收藏

zookeeper学习使用

1.解压后进入conf目录，把zoo_sample.cfg文件拷贝一份命名为zoo.cfg2.进入zoo.cfg修改dataDir=文件存放路径，修改客户端端口号clientPort=xxxx3.添加全局路径。

overfit同步小助手 2024-07-03 15:03:48 0 收藏

Java实现Kafka消费者(Consumer)两种方式

实现在Spring Boot项目中监听Kafka指定topic中的消息，有两种实现思路：一种是使用Spring Boot提供的注解另外一种是在提供的原生java客户端中，消费者使用定时任务或者采进行消息拉取，这种方式可以避免与parent 版本出现冲突。

overfit同步小助手 2024-07-03 14:03:53 0 收藏

Zookeeper 最新稳定版本 3.8.4 服务安装与原生 C 静态库编译

注意： /path 代表 apache-zookeeper-3.8.4-bin.tar.gz 的所在的文件夹路径，请在进行以下步骤时替换为 apache-zookeeper-3.8.4-bin.tar.gz 在你系统中的目录（或者直接切换到该目录下，并省略前缀 /path/）。（*为占位符，可以是

overfit同步小助手 2024-07-03 11:03:53 0 收藏

PrestoonSpark：利用Spark加速Hive查询

PrestoonSpark：利用Spark加速Hive查询1. 背景介绍在大数据时代,数据量的爆炸式增长给传统的数据处理系统带来了巨大的挑战。Apache Hive作为建立在Hadoop之上的数据仓库工具,支持使用类SQL语言进行数据查询,为大数据分析提供了重

overfit同步小助手 2024-07-03 11:03:46 0 收藏

基于hadoop豆瓣电影数据分析

代码:load data local inpath "/home/liuxuanting/douban_movie-1686527723744.txt" into table lxt_2021900406；代码：hdfs dfs -copyFromLocal /home/liuxuanting/li

overfit同步小助手 2024-07-03 11:03:29 0 收藏

spark期末整理复习

DataFrame可以看作是分布式的Row对象的集合，在二维表数据集的每一列都带有名称和类型，这就是Schema元信息，这使得Spark框架可获取更多数据结构信息，从而对在DataFrame背后的数据源以及作用于DataFrame之上数据变换进行针对性的优化，最终达到提升计算效率。

overfit同步小助手 2024-07-03 10:03:51 0 收藏

Flink-时间语义

1 在eventTime事件时间中，Flink接收事件的数据不是严格按照事件时间进行排序，会出现乱序，需要watermark进行处理乱序的一种机制2 一旦出现乱序，如果只根据eventTime决定window的运行，我们不能明确数据是否全部到位，但又不能无限期的等下去，此时必须要有个机制来保证一个特

overfit同步小助手 2024-07-03 09:03:22 0 收藏

Hadoop 3.3.6 + Tez 0.10.3 + Hive 4.0.0 安装指南

根据 Hive 官方发布说明，Hive 4.0.0 兼容 Hadoop 3.3.6 和 Tez 0.10.3，尝试搭建了一套单节点的环境用于学习。

overfit同步小助手 2024-07-03 09:03:19 0 收藏

spark方法总结

RDD：是一个容错的、只读的、可进行并行操作的数据结构，是一个分布在集群各个节点中的存放元素的集合。RDD的创建有3种不同的方法。第一种是将程序中已存在的Seq集合（如集合、列表、数组）转换成RDD。第二种是对已有RDD进行转换得到新的RDD，这两种方法都是通过内存中已有的集合创建RDD的。第三种是

overfit同步小助手 2024-07-03 08:03:38 0 收藏

一文了解Spark引擎的优势及应用场景

而对数据计算复杂（有推荐、分类、聚类算法场景）且时延要求高的场景，如迭代计算, 交互式计算, 流计算、有机器学习算法需求，图计算需求，且成本投入可以接受的情况下使用Spark SQL,Spark SQL读取的数据都是存入到内存中，因此对机器的内存有要求，且要求内存较大, 相对较贵.总结一下，hive

overfit同步小助手 2024-07-03 08:03:22 0 收藏