大数据 - overfit.cn

RabbitMQ（五）之延迟消息

生产者发送消息时指定一个时间，消费者不会立刻收到消息，而是在才收到消息。：设置在一定时间之后才执行的任务延迟消息的实现有两种：死信交换机，延迟消息插件。

overfit同步小助手 2024-06-24 05:03:46 0 收藏

【CS.SE】使用 docker pull confluentinc/cp-kafka 的全面指南

本文详细介绍了使用 Docker 拉取并运行镜像的步骤，包括准备工作、实际操作、配置及常见问题解决。通过这些步骤，可在本地快速搭建一个 Kafka 环境，用于开发和测试。

overfit同步小助手 2024-06-24 04:03:46 0 收藏

5、Flink事件时间之Watermark详解

Flink事件时间之Watermark详解

overfit同步小助手 2024-06-24 03:03:54 0 收藏

推荐项目：li-apache-kafka-clients - 拓展您的Apache Kafka体验

推荐项目：li-apache-kafka-clients - 拓展您的Apache Kafka体验项目地址:https://gitcode.com/linkedin/li-apache-kafka-clients在快速发展的大数据传输领域，Apache Kafka以其卓越的性能和稳定性占据了重要地位

overfit同步小助手 2024-06-24 03:03:49 0 收藏

hive内置函数

- explode常与 lateral view 函数联用，这两个函数结合在一起能。split，注意 '.' 要加\\转义。码出这个lateral view的过程。关联成功，蓝色是拆分后的，红色是原数据。输入是一行，输出是一列。

overfit同步小助手 2024-06-24 03:03:23 0 收藏

探索Hadoop生态：从集群搭建到数据仓库Hive

本文带领大家深入了解了Hadoop生态系统中的各个组件，包括Hadoop的基本概念、集群的搭建和配置、HDFS分布式文件系统、MapReduce分布式计算框架以及Hive数据仓库。通过本文的学习，读者可以掌握Hadoop的基本知识和操作技能，为后续的大数据处理和分析打下坚实的基础。HDFS是Hado

overfit同步小助手 2024-06-24 02:03:54 0 收藏

从0开始学人工智能测试节选：Spark -- 结构化数据领域中测试人员的万金油技术（三）

分布式计算的原理总结一句话就是：分而治之。所有的分布式软件都是分而治之的思路，当数据量大到了单机无法承载的时候，那么就利用上面的原理，把数据分布到不同的机器中。这样的架构也就可以支持横向扩展，也就是当存储软件的性能或者磁盘空间不够用时，只要加机器就可以了。

overfit同步小助手 2024-06-24 01:03:53 0 收藏

数据仓库—建模方法论—Data Vault 建模

按照Dan Linstedt的定义，Data Vault模型是面向细节的、可追踪历史的、一组有连接关系的规范化的表的集合。它综合了三范式建模和星型模型的优点，其设计理念是满足企业对数据模型灵活性、可扩展性、一致性和对需求的适应性要求，是专门针对企业级数据仓库需要的一套建模方法。Data Vault模

overfit同步小助手 2024-06-24 01:03:17 0 收藏

RabbitMQ在Java中的完美实现：从入门到精通

RabbitMQ是一个开源的AMQP实现，服务器端用Erlang语言编写，支持多种客户端，如：Python、Ruby、.NET、Java、JMS、C、PHP、ActionScript、XMPP、STOMP等，支持AJAX。用于在分布式系统中存储转发消息，在易用性、扩展性、高可用性等方面表现不俗。本文

overfit同步小助手 2024-06-24 00:03:53 0 收藏

Hadoop中Hive数据仓库的核心技术与应用

接着，通过编写HiveQL查询语句，我们可以方便地分析出哪些商品的销售量最高，或者哪些用户最活跃等信息。Hive作为一个基于Hadoop的数据仓库工具，因其高效的数据处理能力和良好的扩展性而受到广泛关注。：使用SELECT语句进行数据查询，支持加入（JOIN）、分组（GROUP BY）等多种SQL查

overfit同步小助手 2024-06-24 00:03:48 0 收藏

消息队列kafka中间件详解：案例解析(第10天)

本文主讲述了消息队列，Kafka的架构，Kafka的相关使用和常用shell命令，Kafka的Python API的操作；

overfit同步小助手 2024-06-24 00:03:41 0 收藏

kafka进阶核心原理详解：案例解析(第11天)

本文通过案例的方式详解kafka进阶核心原理：副本机制，数据位移，分发策略，负载均衡，数据积压等问题

overfit同步小助手 2024-06-23 21:03:42 0 收藏

RabbitMq实现解耦与削峰的方式

交换器 X 是 direct 类型的交换器，绑定的两个队列中，一个队列的 bindingKey 是orange ，另一个队列的 bindingKey 是 black 和 green。生产者者将消息发送到交换机上，交换机通过路由key（注意：广播模式和Header模式没有路由key）将消息分发给队列，

overfit同步小助手 2024-06-23 19:03:34 0 收藏

Hadoop HDFS：海量数据的存储解决方案

作为处理大规模数据集的强大工具，HDFS已经成为了很多组织在大数据时代的基石。虽然存在一些设计和性能挑战，但其开源的本质和持续的技术进步保证了HDFS在未来数据技术领域的重要位置。无论是数据存储、大数据分析还是云服务，HDFS都将继续发挥其独特的价值和功能。

overfit同步小助手 2024-06-23 17:03:54 0 收藏

Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce

HDFS（Hadoop Distributed File System）：HDFS是Hadoop生态系统中的分布式文件系统，主要用于存储大规模数据集。它将数据分布在多个节点上，支持数据冗余备份，确保数据的可靠性和高可用性。HDFS是Hadoop分布式计算的基础，能够让Hadoop系统高效地处理大规模

overfit同步小助手 2024-06-23 17:03:47 0 收藏

摸鱼大数据——Hive基础理论知识——Hive环境准备

后台启动hiveserver2服务: nohup hive --service hiveserver2 &方式1: sh 脚本注意: 需要进入脚本所在目录,但脚本有没有执行权限不影响执行。方式2: ./脚本注意: 需要进入脚本所在目录,且脚本必须有执行权限。

overfit同步小助手 2024-06-23 17:03:31 0 收藏

大数据技术概述_1.大数据的定义

Granter公司关注大数据的三个量化指标：数据量、数据种类和处理速度。Granter认为传统的存储技术难以应付大数据处理，主要存在以下三大挑战。挑战一：不断增长的数据量。在大数据背景下，数据这一宝贵财富通常是不能删除的，因此数据将不断积累增长，增长速度经常超出人们预计。信息中心需要管理TB级甚至P

overfit同步小助手 2024-06-23 16:03:54 0 收藏

Zookeeper 面试题（一）

1. ZooKeeper 适合哪些应用场景？2. 简述什么是Zookeeper ？3. 简述Zookeeper 目录结构和作用？4. 简述Zookeeper的工作原理？5. 简述zoo.cfg 配置项目和对应的作用 ?6. 请列举Zookeeper的常用命令？7. 列举Zookeeper服务启

overfit同步小助手 2024-06-23 15:03:11 0 收藏

完美解决 RabbitMQ可视化界面Overview不显示折线图和队列不显示Messages

今天使用docker部署了一个RabbitMQ，浏览器打开15672可视化页面发送消息后不显示交换机中的Overview中的折线图，还有队列中的Messages，因为我要看队列中的消息数量。5. 退出容器 exit6. 重启容器。

overfit同步小助手 2024-06-23 13:03:42 0 收藏

FlinkCDC实时读取PostgreSQL

wal_level必须更改，其它参数选着性更改，如果同步表数量超过10张建议修改为合适的值。2.新建用户并且给用户复制流权限（例如在navicat中操作）1.更改配置文件postgresql.conf。一、准备（PG版本为9.6.24）

overfit同步小助手 2024-06-23 13:03:27 0 收藏