大数据 - overfit.cn

图解7: PySpark 机器学习实践

作者：禅与计算机程序设计艺术 1.简介PySpark 是 Apache Spark 的 Python API ，它提供了一个快速、通用、高性能的计算框架。利用 PySpark 可以轻松进行数据处理、特征提取、模型训练等机器学习任务。其独特的数据抽象机制使得开发人

overfit同步小助手 2023-10-04 07:03:21 0 收藏

kafka springBoot 配置

通过这样的配置，你的 Spring Boot 应用程序将启用 Kafka 支持，你可以使用 KafkaTemplate 进行消息发送，使用 @KafkaListener 进行消息消费。但是在这种模式下，如果处理消息时发生异常，Kafka 服务器会重新发送相同的消息，可能会导致消息的重复消费。当你在

overfit同步小助手 2023-10-04 06:03:59 0 收藏

【hive】hive分桶表的学习

每一个表或者分区，hive都可以进一步组织成桶，桶是更细粒度的数据划分，他本质不会改变表或分区的目录组织方式，他会改变数据在文件中的分布方式。

overfit同步小助手 2023-10-04 06:03:54 0 收藏

HDFS磁盘清理维护

HDFS磁盘查看清理

overfit同步小助手 2023-10-04 05:03:54 0 收藏

探索数据湖中的巨兽：Apache Hive分布式SQL计算平台浅度剖析！

对数据进行统计分析，SQL是目前最为方便的编程工具大数据体系中充斥着非常多的统计分析场景，所以，使用SQL去处理数据，在大数据中也是有极大的需求的MapReduce支持程序开发（Java、Python等），但不支持SQL开发Apache Hive是一款分布式SQL计算的工具将SQL语句翻译成Map

overfit同步小助手 2023-10-04 05:03:50 0 收藏

kafka详解二

同一个topic下有多个不同的partition，每个partition为一个目录，partition命名的规则是topic的名称加上一个序号，序号从0开始。每一个partition目录下的文件被平均切割成大小相等（默认一个文件是1G，可以手动去设置）的数据文件，每一个数据文件都被称为一个段（seg

overfit同步小助手 2023-10-04 04:03:55 0 收藏

Zookeeper与Kafka

Zookeeper是一个开源的分布式的，为分布式框架提供协调服务的Apache项目。（1）由于在高并发环境下，同步请求来不及处理，请求往往会发生阻塞。比如大量的请求并发访问数据库，导致行锁表锁，最后请求线程会堆积过多，从而触发 too many connection 错误，引发雪崩效应。（2）我们使

overfit同步小助手 2023-10-04 02:03:57 0 收藏

Hadoop-Hbase

2）访问对应的Region Server，获取hbase:meta表，根据写请求的namespace:table/rowkey，查询出目标数据位于哪个Region Server中的哪个Region中。写缓存，由于HFile中的数据要求是有序的，所以数据是先存储在MemStore中，排好序后，等到达刷

overfit同步小助手 2023-10-04 02:03:50 0 收藏

springcloud3 GateWay章节-Eureka+gateway动态路由负载均衡1

gateway相当于所有服务的门户，将客户端请求与服务端应用相分离，客户端请求通过gateway后由定义的路由和断言进行转发，路由代表需要转发请求的地址，断言相当于请求这些地址时所满足的条件，只有同时符合路由和断言才给予转发gateway根据路由与断言去转发请求到指定的服务。

overfit同步小助手 2023-10-04 02:03:27 0 收藏

如何使用SpringCloud Eureka 创建单机Eureka Server-注册中心

😀前言本篇博文是关于使用SpringCloud Eureka 创建单机Eureka Server-注册中心，希望你能够喜欢🧑个人简介：大家好，我是晨犀，希望我的文章可以帮助到大家，您的满意是我的动力😉😉。

overfit同步小助手 2023-10-04 01:03:54 0 收藏

计算机，软件工程，网络工程，大数据专业毕业设计选题有哪些（附源码获取）

大家好！我是你们的毕设周学长，知道你们即将面临毕业设计的任务，所以我来给大家整理了一些可能用到的计算机毕设选题，希望能够帮到你们。当然，以上只是一些选题的示例，具体选题还需要结合自身的兴趣和实际情况进行选择。如果对选题有任何疑问，欢迎向我提问，我会尽力为大家提供帮助。祝愿大家能够找到适合自己的毕设选

overfit同步小助手 2023-10-04 01:03:29 0 收藏

Databases and Big Data Technologies: Essential Knowledg

作者：禅与计算机程序设计艺术 1.简介概述互联网正在改变着传统行业和新兴行业的结构，电子商务、社交网络、移动应用程序等新兴产业的迅速发展也催生了基于数据中心的数据库应用的需求，而这方面的知识技能是越来越重要。然而，除了数据库技术的基础知识和技术栈外，基于数据的分

overfit同步小助手 2023-10-03 21:04:01 0 收藏

ActiveMQ、RabbitMQ、Kafka、RocketMQ消息中间件技术选型

消息中间件是分布式系统中重要的组件之一，用于实现异步通信、解耦系统、提高系统可靠性和扩展性。在做消息中间件技术选型时，需要考虑多个因素，包括可靠性、性能、可扩展性、功能丰富性、社区支持和成本等。本文将五种流行的消息中间件技术：ActiveMQ、RabbitMQ、Kafka、RocketMQ和Zero

overfit同步小助手 2023-10-03 21:03:47 0 收藏

kafka生产者发送消息流程分析

overfit同步小助手 2023-10-03 21:03:30 0 收藏

Hive 概述及其实现原理

作者：禅与计算机程序设计艺术 1.简介Apache Hive 是开源的分布式数据仓库基础构件之一，其提供简单的查询语言 SQL 来访问存储在 Hadoop 分布式文件系统 (HDFS) 中的数据。Hive 通过将 MapReduce 操作转换成基于 Tez 的运

overfit同步小助手 2023-10-03 18:03:52 0 收藏

记一次线上kafka重复消费的问题解决及思考

kafka重复消费原因及解决方案

overfit同步小助手 2023-10-03 18:03:47 0 收藏

RabbitMQ原理(二)：SpringAMQP编程

由于`RabbitMQ`采用了AMQP协议，因此它具备跨语言的特性。任何语言只要遵循AMQP协议收发消息，都可以与`RabbitMQ`交互。并且`RabbitMQ`官方也提供了各种不同语言的客户端。但是，RabbitMQ官方提供的Java客户端编码相对复杂，一般生产环境下我们更多会结合Spring来

overfit同步小助手 2023-10-03 16:04:18 0 收藏

windows安装RabbitMq

RabbitMQ 是一个由 Erlang 语言开发的 AMQP 的开源实现。AMQP ：Advanced Message Queue，高级消息队列协议。它是应用层协议的一个开放标准，为面向消息的中间件设计，基于此协议的客户端与消息中间件可传递消息，并不受产品、开发语言等条件的限制。RabbitMQ是

overfit同步小助手 2023-10-03 16:04:07 0 收藏

【技术分享】四、RabbitMQ “延时队列”

延时的含义为等待一段时间，应用到RabbitMQ 消息发布/订阅模型中的概念就是，拿到消息后不想立即消费，等待一段时间再执行。

overfit同步小助手 2023-10-03 13:04:17 0 收藏

GraphBase基础原理

互联网时代，随着网络技术的发展，企业积累的数据越来越多。伴随着数据集的不断增加，传统的关系型数据库查询性能会随之变差，特别是针对一些特殊的业务场景，所以迫切的需要一种新的解决方案去应对这种危机。为了解决复杂的关系问题，图数据库应运而生。图数据库，是指以“图”这种数据结构存储和查询数据，图包含节点和关

overfit同步小助手 2023-10-03 13:04:10 0 收藏