大数据 - overfit.cn

二百二十三、Kettle——从Hive增量导入到ClickHouse(根据day字段判断)

Kettle——从Hive增量导入到ClickHouse(根据day字段判断)

overfit同步小助手 2024-02-28 16:03:43 0 收藏

Rabbitmq的几种模式的总结

主题模式（Topic Mode）：主题模式是路由模式的一种扩展，它通过使用通配符来进行匹配，可以实现更灵活的消息路由。过滤模式（Header Mode）：过滤模式中，生产者将消息发送到交换机，并且通过消息的头部属性进行选择性的消息传递。发布/订阅模式（Publish/Subscribe Mode）：

overfit同步小助手 2024-02-28 16:03:40 0 收藏

Flink on K8S生产集群使用StreamPark管理

StreamPark on k8s操作，flink on k8s使用StreamPark 管理

overfit同步小助手 2024-02-28 16:03:31 0 收藏

数据仓库的安全性与合规性

1.背景介绍数据仓库是企业和组织中的核心资产之一，它存储了大量的敏感数据和商业秘密。随着数据仓库的发展和应用范围的扩大，数据仓库的安全性和合规性变得越来越重要。数据仓库的安全性涉及到数据的完整性、机密性和可用性，而合规性则涉及到法律法规、企业政策和行业标准等方面。在本文中，我们将从以下几个方面进行阐

overfit同步小助手 2024-02-28 15:03:53 0 收藏

SparkStreaming与ApacheStorm

SparkStreaming与ApacheStorm作者：禅与计算机程序设计艺术1. 背景介绍1.1 大数据时代随着互联网的普及和数字化的进程，我们生成的数据呈指数级增长。我们需要更加高效、高速的处理这

overfit同步小助手 2024-02-28 15:03:48 0 收藏

【Kafka】消息重复场景及解决

Kafka消息重复场景及解决

overfit同步小助手 2024-02-28 15:03:38 0 收藏

常用的消息中间件RabbitMQ

消息中间件也可以称消息队列指用高效可靠的消息传递机制进行与平台无关的数据交流基于数据通信来进行分布式系统的集成。通过提供消息传递和消息队列模型，可以在分布式环境下扩展进程的通信。当下主流的消息中间件有RabbitMQ、Kafka、ActiveMQ、RocketMQ等。Kafka是LinkedIn开源

overfit同步小助手 2024-02-28 15:03:31 0 收藏

【YARN】【Apache Hadoop YARN】【架构】

每个应用程序的ApplicationMaster负责从EJB协商适当的资源容器，跟踪它们的状态并监视进度。YARN通过ReservationSystem支持资源预留的概念，ReservationSystem是一个允许用户指定资源随时间和时间约束的配置文件的组件（例如，ReservationSyste

overfit同步小助手 2024-02-28 15:03:09 0 收藏

企业级大数据安全架构（十）DBeaver连接Hive的Kerberos认证配置

因为Kerberos认证过程及集群服务中，很多是以主机名的形式进行访问的，所以工作机要设置hosts. 域名映射，我们通过部署CDH的集群的每一台机器都已经配置了host(文件为/etc/hosts)，工作机也需要配置window的host文件，如果提示无法修改，一般是需要管理员权限的原因，比较简单

overfit同步小助手 2024-02-28 14:03:27 0 收藏

计算机毕设分享基于大数据个性化音乐推荐算法分析

基于大数据个性化音乐推荐算法分析提示：适合用于课程设计或毕业设计，工作量达标，源码开放。

overfit同步小助手 2024-02-28 13:03:59 0 收藏

spark为什么比mapreduce快？

因为mapreduce计算模型只能包含一个map和一个reduce,所以reduce完后必须进行落盘，而DAG可以连续shuffle的，也就是说一个DAG可以完成好几个mapreduce，所以dag只需要在最后一个shuffle落盘，就比mapreduce少了，总shuffle次数越多，减少的落盘次

overfit同步小助手 2024-02-28 13:03:56 0 收藏

RabbitMQ交换机

添加队列fanout.queue1。添加队列fanout.queue2。添加交换机harry.fanout。添加队列direct.queue1。添加队列direct.queue2。添加交换机harry.direct。添加队列direct.queue1。添加队列direct.queue2。添加交换机h

overfit同步小助手 2024-02-28 13:03:44 0 收藏

SparkUI任务启动参数介绍（148个参数）

SparkUI中有很多任务启动参数，需要对参数有一个深入了解才能进一步调优，资源优化

overfit同步小助手 2024-02-28 13:03:21 0 收藏

RabbitMQ之消费者可靠性

RabbitMQ消费者可靠性的实现

overfit同步小助手 2024-02-28 11:03:49 0 收藏

RabbitMQ-消息队列：优先级队列、惰性队列

队列实现优先级需要做的事情有如下事情：1.队列需要设置为优先级队列2.消息需要设置消息的优先级3.消费者需要等待消息已经发送到队列中才去消费因为，这样才有机会对消息进行排序当消费者由于各种各样的原因 (比如消费者下线、宕机亦或者是由于维护而关闭等) 而致使长时间内不能消费消息造成堆积时，惰性队列就很

overfit同步小助手 2024-02-28 10:03:41 0 收藏

Spark SQL和Hive SQL 的对比

总结来说，Hive SQL更侧重于构建大数据仓库解决方案，而Spark SQL则在保持与Hive兼容的基础上，提升了查询性能并增加了更多高级功能，如支持更丰富的数据源连接、实时处理能力以及与Scala/Java/Python API的高度集成。用户可以根据实际需求选择或结合使用两者来满足不同的数据分

overfit同步小助手 2024-02-28 09:03:38 0 收藏

Flink双流（join）

Window Join有可以根据Window的类型细分出3种：Tumbling(滚动) Window Join、Sliding(滑动) Window Join、Session(会话) Widnow Join。🌸Window 类型的join都是利用window的机制，先将数据缓存在Window St

overfit同步小助手 2024-02-28 09:03:32 0 收藏

Kettle——大数据ETL工具

kettle概念组件介绍，kettle下载安装以及简单使用。

overfit同步小助手 2024-02-28 08:03:29 0 收藏

解析Hadoop三大核心组件：HDFS、MapReduce和YARN

在大数据时代，Hadoop作为一种开源的分布式计算框架，已经成为处理大规模数据的首选工具。它采用了分布式存储和计算的方式，能够高效地处理海量数据。Hadoop的核心由三大组件组成：HDFS、MapReduce和YARN。本文将为您逐一介绍这三个组件。

overfit同步小助手 2024-02-28 08:03:18 0 收藏

(11)Hive调优——explain执行计划

Hive调优——explain执行计划

overfit同步小助手 2024-02-28 07:03:55 0 收藏