大数据 - overfit.cn

太原理工大学大数据期末复习（随心所欲版）

Pig是一种数据流语言和运行环境，在Hadoop平台上查询半结构化数据集，将外部数据装载到Hadoop集群中，转化为用户需要的数据格式。Hbase面向列的，分布式的，可伸缩的数据库，可提供数据的实时访问，hive只能处理静态数据。就是随便出了一个，可能有许多有错误的地方，互相知道就行了不要较真

overfit同步小助手 2024-05-26 21:04:12 0 收藏

RabbitMQ--死信队列

死信顾名思义就是没办法被消费的消息；

overfit同步小助手 2024-05-26 21:03:48 0 收藏

Hive的索引

Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下，分桶和索引常常是优于分区的。而分桶由于SMB

overfit同步小助手 2024-05-26 20:03:53 0 收藏

Flink1.18.1在CentOS7下的安装和部署

本文是Flink1.18.1在CenOS7下的安装和部署的学习笔记，记录了基本的安装步骤及参数配置，给初学者避坑用。

overfit同步小助手 2024-05-26 20:03:31 0 收藏

伪分布式搭建Hadoop中消失的“DataNode”

我们在搭建hadoop中都会出现一些小小的问题，在伪分布式安装完Hadoop后，jps查看进程的时候缺三少两，今天解决的问题是6个进程中缺少了DataNode。

overfit同步小助手 2024-05-26 19:03:58 0 收藏

基于Doris的日志存储分析平台（同步Kafka日志数据）

【代码】基于Doris的日志存储分析平台（同步Kafka日志数据）

overfit同步小助手 2024-05-26 19:03:50 0 收藏

linux系统安装kafka（新版本3.7.0）

如果你需要在生产环境中使用Kafka，你可能需要考虑配置Kafka集群或者使用更高级的管理和监控工具。openjdk11下载：https://mirrors.tuna.tsinghua.edu.cn/Adoptium/11/jdk/x64/linux/注意事项：kafka会用到jdk，kafka_2

overfit同步小助手 2024-05-26 19:03:47 0 收藏

【RabbitMQ | 第六篇】消息重复消费问题及解决方案

该篇文章介绍了消息重复消费问题及解决方案，问题可能产生的两个阶段（生产消息多发、消费者重复消息）；解决方案：将消息发送时携带一个唯一id，消费方拿到消息时先去reids/db中有没有该数据，若没有则可以消费，否则不可以消费；并介绍了基于Redsi解决消息重复消费问题，①以队列名称为key，消息id为

overfit同步小助手 2024-05-26 19:03:40 0 收藏

RabbitMQ命令行监控命令详解

通过以上介绍的RabbitMQ监控命令，我们可以方便地查看RabbitMQ服务器的各种信息，从而更好地监控和管理RabbitMQ。在实际使用中，我们可以根据需要选择适当的命令进行监控。同时，我们还可以通过编写脚本或使用第三方监控工具，定期执行这些命令并将结果发送到指定的邮箱或监控系统，以实现自动化监

overfit同步小助手 2024-05-26 18:03:31 0 收藏

大数据课堂笔记——lianxi数据库

insert into stu(stuname,sex,birthday,phone) VALUES('李二','男','1995-1-1','11111111111');insert into stu VALUES(null,'李二','男','1995-1-1',null,'1111111111

overfit同步小助手 2024-05-26 17:03:53 0 收藏

Spring Boot集成RabbitMQ-之6大模式总结

（Exchange）：用于接收生产者发送的消息，并根据路由规则将消息路由到一个或多个队列中。AMQP定义了不同类型的交换机，如直连交换机（Direct Exchange）、主题交换机（Topic Exchange）、扇出交换机（Fanout Exchange）等。消息通常包括消息体和消息头，消息体是

overfit同步小助手 2024-05-26 17:03:20 0 收藏

Apache RabbitMQ 的所有组件以及他是如何保证顺序消费消息的

Apache RabbitMQ 是一个开源消息队列系统，基于 Erlang 语言开发，实现了高级消息队列协议（AMQP）。RabbitMQ 提供了多种消息传递机制，包括点对点（direct）、发布/订阅（fanout）、路由（route）和事务（transactional）等。

overfit同步小助手 2024-05-26 15:04:16 0 收藏

【Flink入门修炼】2-3 Flink Checkpoint 原理机制

如果让你来做一个有状态流式应用的故障恢复，你会如何来做呢？单机和多机会遇到什么不同的问题？Flink Checkpoint 是做什么用的？原理是什么？

overfit同步小助手 2024-05-26 15:04:08 0 收藏

头歌：Spark Streaming

套接字流是通过监听Socket端口接收的数据，相当于Socket之间的通信，任何用户在用Socket（套接字）通信之前，首先要先申请一个Socket号，Socket号相当于该用户的电话号码。同时要知道对方的Socket，相当于对方也有一个电话号码。然后向对方拨号呼叫，相当于发出连接请求。对方假如在场

overfit同步小助手 2024-05-26 15:03:54 0 收藏

大数据超全面入门干货知识，看这一篇就够了！

它是一个开源的分布式计算框架，让数据分散储存在多台计算机上，然后使用 MapReduce 的方法，将数据分成小块一块一块地处理，最后把结果汇总起来。有了 Hive，我们不需要学习新的编程语言，只需使用熟悉的 SQL，就能轻松地查询和分析海量的数据。大数据是当今社会的瑰宝，它让我们能够洞悉未知世界，做

overfit同步小助手 2024-05-26 15:03:51 0 收藏

「Kafka」Kafka生产数据和消费数据（三）

把当前的DOS窗口当成Kafka的客户端，那么进行操作前，就需要连接服务器，这里的参数就表示服务器的连接方式，因为我们在本机启动Kafka服务进程，且Kafka默认端口为9092，所以此处，后面接的参数值为localhost:9092，用空格隔开。把当前的DOS窗口当成Kafka的客户端，那么进行操

overfit同步小助手 2024-05-26 15:03:41 0 收藏

深度解析 Spark（进阶）：架构、集群运行机理与核心组件详解

Spark 应用程序作为集群上独立的进程集运行，由SparkContext 主程序（称为驱动程序）中的对象进行协调。具体来说，为了在集群上运行，SparkContext 可以连接到多种类型的集群管理器（Spark 自己的独立集群管理器、Mesos、YARN 或 Kubernetes），这些集群管理

overfit同步小助手 2024-05-26 14:04:13 0 收藏

Kafka

具体来说，分区 0 的副本应该存储在 Broker 1 上，分区 1 的副本应该存储在 Broker 2 上，分区 2 的副本应该存储在 Broker 0 上。请注意，使用 replica-assignment 参数需要确保指定的副本分配是有效的，即每个副本都应该分配到一个活动的 Broker 上，

overfit同步小助手 2024-05-26 14:03:56 0 收藏

【Hive SQL 每日一题】行列转换

列，分别代表每名同学对应的各科成绩，我们只需要在统计时加入判断条件即可，每列只固定求某科的成绩，如果不是则用。解决问题的方式有许多种，但往往我们需要去注重学习解决问题的思路，希望本文对你有所帮助。行转列操作，其实就是将行数据通过列的方式进行查询展示而已，这里行转列数据共有。会返回两个参数，其中第一个

overfit同步小助手 2024-05-26 13:04:07 0 收藏

CDH集群hive初始化元数据库失败

链接的数据库和用户用的和刚开始初始化cm用的数据库用户是同一个，初始化失败。单独搞一个数据库用户给hive。链接的数据库和用户没给管理员权限。给用户DBA的权限。

overfit同步小助手 2024-05-26 12:04:09 0 收藏