大数据 - overfit.cn

【SpringCloud】搭建eureka-server(Eureka注册中心)

依赖的结尾是：eureka-server，说明它是eureka的服务端依赖，中间的starter，是SpringBoot里面的自动装配，也就是说在这个依赖里面已经把eureka所有的配置都已经做好了，也就是说我们可以做到0配置就能拿来用了。如果有多个，则以逗号隔开，但由于这里是单机，所以这里配的是自

overfit同步小助手 2024-08-29 18:03:11 0 收藏

RabbitMQ高级用法

overfit同步小助手 2024-08-29 17:04:26 0 收藏

三、系统隔离术——基于Servlet 3实现请求隔离

特别是在像京东这样的大型电商平台中，商品详情页系统及相关的服务，如库存服务、图书相关服务、延保服务等，都需要处理大量的并发请求。在传统的请求处理模型中，所有请求处理操作都在一个线程中完成，包括请求解析、业务处理和响应生成。例如上图，Tomcat 6 在处理请求时需要在一个线程中完成所有的操作，这种处

overfit同步小助手 2024-08-29 16:04:04 0 收藏

探索高效数据流处理：Sarama——为Apache Kafka量身打造的Go语言客户端库

探索高效数据流处理：Sarama——为Apache Kafka量身打造的Go语言客户端库 saramaSarama is a Go library for Apache Kafka.项目地址:https://gitcode.com/gh_mirrors/sar/sarama 项目介绍Sarama，一

overfit同步小助手 2024-08-29 16:03:44 0 收藏

Hadoop 中的大数据技术：调优篇（3）

存储小文件会导致 NameNode 内存消耗过多，因为每个文件都需要按块存储，而每个块的元数据都存储在 NameNode 的内存中。使用 HDFS 存档文件（HAR 文件）来更高效地归档小文件，减少 NameNode 内存使用的同时保持文件的透明访问。结果显示，磁盘的总体混合随机读速度为 220Mi

overfit同步小助手 2024-08-29 13:03:33 0 收藏

实验3-Spark基础-Spark的安装

PYTHONPATH环境变量主要是为了在Python3中引入Pyspark库，对于不同版本的Spark , 其py4j-0.10.7-src.zip文件名是不同的，要进入相应目录 $SPARK_HOME/python/lib/ 下具体查看确定具体名称，再对PYTHONPATH环境变量的相应值加以修改

overfit同步小助手 2024-08-29 12:04:22 0 收藏

Hadoop: Mapreduce了解

Hadoop MapReduce是一个软件框架，用于轻松编写应用程序，这些应用程序以可靠、容错的方式在大型集群（数千个节点）的商用硬件上并行大量数据（数TB数据集）。MapReduce作业通常将输入数据集分割成独立的块，这些块由映射任务以完全并行的方式进行处理。该框架对映射的输出进行排序，然后将其输

overfit同步小助手 2024-08-29 11:04:16 0 收藏

【精选】基于Spark的国漫推荐系统（精选设计产品）

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（larg

overfit同步小助手 2024-08-29 09:05:01 0 收藏

深入理解 Kafka 的 ConsumerRebalanceListener

是 Kafka 提供的一个回调接口，用户可以实现该接口来监听分区重新平衡（partition rebalance）事件。当消费者组中的分区分配发生变化时，Kafka 会触发重新平衡操作。：在重新平衡操作期间，当消费者需要放弃一些分区时调用。：在分区重新分配完成并且消费者开始获取数据之前调用，并且只有

overfit同步小助手 2024-08-29 09:04:44 0 收藏

zookeeper 及可视化工具zkui安装

zookeeper zkui安装

overfit同步小助手 2024-08-29 09:04:27 0 收藏

Flink on Yarn三部曲之一：准备工作

说句实话，如果一个打工人不想提升自己，那便没有工作的意义，毕竟大家也没有到养老的年龄。当你的技术在一步步贴近阿里p7水平的时候，毫无疑问你的薪资肯定会涨，同时你能学到更多更深的技术，交结到更厉害的大牛。推荐一份Java架构之路必备的学习笔记，内容相当全面！！！成年人的世界没有容易二字，前段时间刷抖音

overfit同步小助手 2024-08-29 09:04:23 0 收藏

大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新

上节研究了SparkStreaming Kafka的Offset管理，同时使用Scala实现了自定义的Offset管理。本节继续研究，使用Redis对Kafka的Offset进行管理。Redis 作为一个高效的内存数据库，常用于存储 Spark Streaming 中的 Kafka 偏移量。通过手动

overfit同步小助手 2024-08-29 08:03:17 0 收藏

部署RabbitMQ集群

RabbitMQ集群中的节点可以共享队列、交换机和绑定。但是，与某些其他消息代理不同，RabbitMQ集群不共享消息存储——每个RabbitMQ节点都维护自己的队列和消息。在集群中，队列实际上是在节点之间镜像的，以确保高可用性和容错性。RabbitMQ集群有两种模式：普通模式和镜像队列模式。普通模式

overfit同步小助手 2024-08-29 07:03:33 0 收藏

使用 FastAPI、Celery 和 RabbitMQ 的异步架构

我们的消息代理已启动并运行。现在让我们配置 Celery。

overfit同步小助手 2024-08-29 07:03:19 0 收藏

Spark RPC框架详解

SparkContext构造过程的重要一步，就是Driver、ApplicationMaster以及Executor之间的协调和通信过程，这是基于RPC进行的。这里的Spark RPC是基于Netty的通信过程，而Netty的通信其实是基于Reactor架构进行的，Reactor架构其实是基于Jav

overfit同步小助手 2024-08-29 06:03:56 0 收藏

kafka

在kafka中默认副本的最大数量是10个，且副本的数量不能大于Broker的数量，follower和leader绝对是在不同的机器，同一机器对同一个分区也只可能存放一个副本（包括自己）。协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统

overfit同步小助手 2024-08-29 05:03:48 0 收藏

Java毕业设计基于Springboot+Vue+Hadoop的校园二手闲置商品交易系统

随着新冠疫情的爆发，线下经济活动受到严重冲击，线下购物的人数显著减少，导致大量商品滞销，尤其是校园内的二手商品。与此同时，大学生群体在毕业季面临着大量不便携带的二手物品，如书籍、电子产品、生活用品等，这些物品往往因无法有效处理而被遗弃，造成了资源的极大浪费。因此，开发一个校园二手闲置商品交易系统，旨

overfit同步小助手 2024-08-29 05:03:39 0 收藏

强化学习原理与代码实战案例讲解

1. 背景介绍1.1 问题的由来强化学习是机器学习的一个重要分支，它的目标是让机器通过与环境的交互，学习到一个策略，使得在未来的一段时间内，从环境中获得的奖励最大。这个问题的由来可以追溯到心理学中的操作性条件反射理论，也就是通过奖励和惩罚来改变行为的理论。1

overfit同步小助手 2024-08-29 04:03:50 0 收藏

数仓建模：范式建模、维度建模、实体建模

数仓建模在哪层建，怎么建，三种维度建模法：范式建模法，维度建模法，实体建模法，三种维度建模模式：星型模型，雪花模型，星座模型

overfit同步小助手 2024-08-29 04:03:30 0 收藏

使用 Elasticsearch 和 LlamaIndex 保护 RAG 中的敏感信息和 PII 信息

在这篇文章中，我们将研究在 RAG（检索增强生成）流程中使用公共 LLMs 时保护个人身份信息 (personal identifiable information - PII) 和敏感数据的方法。我们将探索使用开源库和正则表达式屏蔽 PII 和敏感数据，以及在调用公共 LLM 之前使用本地 LLM

overfit同步小助手 2024-08-29 03:03:52 0 收藏