大数据 - overfit.cn

大数据技术之HBase（超级详细）

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。本文主要介绍了关于HBase的原理概念

overfit同步小助手 2024-06-07 18:03:36 0 收藏

搭建zookeeper单机环境实现简单的增删改查（CRUD）

linux中jdk的安装和zookeeper的安装以及简单的创建数据库并进行增删改查（CRUD）

overfit同步小助手 2024-06-07 18:03:15 0 收藏

从零开始在openEuler上构建Hadoop

申请环境可以从PCL上申请，申请流程如下：申请完环境后就可以通过terminal登录辣~(xshell, mobaXterm, putty, 选一个你喜欢的)配置yum源。

overfit同步小助手 2024-06-07 17:03:57 0 收藏

Hive常见的面试题（十二道）

UDF（普通函数，⼀进⼀出，可以⽤于字符串处理、⽇期处理）第一种是比较简单的形式，继承 UDF 类通过 evaluate 方法实现，目前已过时。第二种是继承 GenericUDF 重写 initialize 方法、evaluate 方法、getDisplayString 方法实现。

overfit同步小助手 2024-06-07 17:03:48 0 收藏

快速入门消息队列 RabbitMQ

前端监控系统主要负责采集用户端的异常、性能、业务埋点等数据，并将这些数据上报到服务端进行存储与可视化分析。随着用户量的增加，数据量也会相应增大，这会对服务端产生较大的并发压力。直接将大量数据存入数据库可能会导致数据库服务崩溃。流量削峰：可以将大量流量放入消息队列中，然后慢慢处理，避免系统崩溃。应用解

overfit同步小助手 2024-06-07 17:03:32 0 收藏

大数据商品推荐系统

是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算,同时它也是当前最流行的云计算平台。本次课程设计通过Hadoop云计算平台实现一个商品推荐系统，希望通过编写本次课程设计，能够对Hadoop有一个基本的了

overfit同步小助手 2024-06-07 15:03:42 0 收藏

Spring Boot 实现 RabbitMQ 监听消息的几种方式

通过在方法上标记注解来监听指定的队列，当消息到达时，被注解的方法将被调用。：实现 Spring AMQP 提供的接口，编写自定义的消息监听器，然后使用设置消息监听器。：通过类，可以将普通的 Java 方法转换为消息监听器，从而简化消息处理逻辑。：结合和注解，可以实现多个不同类型消息的处理方法，根据消

overfit同步小助手 2024-06-07 14:03:15 0 收藏

kafka-消费者服务搭建&配置&简单消费（SpringBoot整合Kafka）

kafka-消费者服务搭建&配置（SpringBoot整合Kafka）

overfit同步小助手 2024-06-07 13:03:44 0 收藏

Linux安装HBase的详细教程及常用方法

在Linux上安装HBase之前，首先确保已正确安装了Java环境。以上是Linux安装HBase的详细教程及常用方法。根据你的实际需求，可以根据以上步骤进行安装及使用。前往HBase官方网站(http://hbase.apache.org/)下载最新版本的HBase。HBase将会启动，并在终端上

overfit同步小助手 2024-06-07 13:03:15 0 收藏

Kafka安装及快速入门教程_Kafka3.5.1_云峦操作系统[KOS]

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而

overfit同步小助手 2024-06-07 12:03:30 0 收藏

Kafka线上集群部署方案怎么做？no.6

最后是社区的支持度。这一点虽然不是什么明显的差别，但如果不了解的话可能比前两个因素对你的影响更大。简单来说就是，社区目前对Windows平台上发现的Kafka Bug不做任何承诺。虽然口头上依然保证尽力去解决，但根据我的经验，Windows上的Bug一般是不会修复的。

overfit同步小助手 2024-06-07 12:03:27 0 收藏

真香，美柚大数据研发的分布式计算任务调度系统

基于SSH的脚本执行机制，部署简单快捷，仅需单个服务基于Yarn Rest Api的任务状态同步机制，对Spark、Flink无版本限制支持失败重试支持任务依赖支持复杂任务编排（DAG）支持流处理任务运行管理和监控支持Yarn应用管理。

overfit同步小助手 2024-06-07 12:03:20 0 收藏

2024年前端最新Nginx入门知识【Nginx介绍，下载安装，基础命令，配置，具体应用，2024年最新大数据高频面试题

为了帮助大家更好的了解前端，特别整理了《前端工程师面试手册》电子稿文件。开源分享：【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件（IMAP/POP3）代理服务器。其特点是占有内存少，并发能力强，事实上nginx的并

overfit同步小助手 2024-06-07 11:03:51 0 收藏

【头歌实训】PySpark Streaming 数据源

第1关：MySQL 数据源，第2关：Kafka 数据源，在PySpark中支持通过JDBC的方式连接到其他数据库获取数据生成DataFrame，同样可以使用Spark SQL去读写数据库。除了JDBC 外，还支持ParquetJSONHive等。Kafka 就是一个分布式的用于消息存储的发布订阅模式

overfit同步小助手 2024-06-07 11:03:48 0 收藏

国内镜像下载加速器，示例为hadoop

下载地址:北京信息学院镜像http://mirror.bit.edu.cn/apache/hadoop/common/下载地址:清华大学镜像https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/stable/

overfit同步小助手 2024-06-07 11:03:43 0 收藏

RabbitMQ搭建集群环境、配置镜像集群、负载均衡

在Linux环境之下，安装RabbitMQ、搭建RabbitMQ集群环境、配置RabbitMQ镜像集群、实现RabbitMQ负载均衡等。

overfit同步小助手 2024-06-07 11:03:30 0 收藏

使用Hadoop MapReduce计算成绩平均值

Hadoop MapReduce是一个分布式计算框架，常用于处理大规模数据集。本篇博客将介绍如何使用Hadoop MapReduce计算学生科目成绩的平均值。我们将通过编写Map和Reduce两个类来实现这个功能。通过以上步骤，我们成功编写了一个使用Hadoop MapReduce计算各科目成绩平均

overfit同步小助手 2024-06-07 11:03:12 0 收藏

Windows -安装 Zookeeper 并启动

由于下载的是 tar包，需要使用指令解压，打开安装包的路径，执行以下命令，解压压缩包。目录下，已经有内容了，到此在 windows 安装zk 已经完毕。在此我选择了3.8.3版本，（可按自己需求下载所需版本）点击 Download 进入zookeeper版本页面。配置文件，进行如下内容修改，将默认

overfit同步小助手 2024-06-07 10:03:34 0 收藏

【大数据】探索大数据中的向量相似度搜索：Faiss入门指南

Faiss是Facebook开发的用于大规模向量检索和相似度搜索的库。它主要用于处理高维度的向量，例如图像特征、文本向量等。Faiss提供了高效的索引结构和查询算法，能够快速地在海量数据集中找到最相似的向量。Faiss是一个功能强大的库，可用于大规模向量检索和相似度搜索。通过简单的示例，我们展示了如

overfit同步小助手 2024-06-07 10:03:25 0 收藏

docker 拉取不到镜像的问题：拉取超时

首先设置国内的镜像源：复制下面直接执行。

overfit同步小助手 2024-06-07 09:04:06 0 收藏