大数据 - overfit.cn

SpringBoot 3 集成Hive 3

造成此问题的原因是:spring boot 默认日志为logback, 而引用的hive-jdbc 及其关联jar 使用的日志为 log4j ，造成SLF4J 绑定冲突。我这边编写一个简单的Controller，打印Hive 默认数据库包含数据库名称。造成此类问题的原因：hiveserver2 服

overfit同步小助手 2024-01-01 10:03:51 0 收藏

大数据与深度挖掘：如何在数字营销中与研究互动

数字营销最吸引人的部分之一是对数据的内在关注。如果一种策略往往有积极的数据，那么它就更容易采用。同样，如果一种策略尚未得到证实，则很难获得支持进行测试。数字营销人员建立数据信心的主要方式是通过研究。这两个数据集在制定数字营销策略中都占有一席之地。这就是为什么过分依赖其中一个是危险的。这篇文章将着眼于

overfit同步小助手 2024-01-01 09:03:39 0 收藏

RabbitMQ高级特性2 、TTL、死信队列和延迟队列

1. 死信交换机和死信队列和普通的没有区别2. 当消息成为死信后，如果该队列绑定了死信交换机，则消息会被死信交换机重新路由到死信队列3. 消息成为死信的三种情况：1. 队列消息长度到达限制；2. 消费者拒接消费消息，并且不重回队列；3. 原队列存在消息过期设置，消息到达超时时间未被消费；

overfit同步小助手 2024-01-01 08:03:49 0 收藏

kafka

kafka什么是 KafkaKafka 是一个分布式流式平台，它有三个关键能力订阅发布记录流，它类似于企业中的消息队列或企业消息传递系统以容错的方式存储记录流实时记录流Kafka 的应用作为消息系统作为存储系统作为流处理器Kafka 可以建立流数据管道，可靠性的在系统或应用之间获取数据。建立流式

overfit同步小助手 2024-01-01 08:03:38 0 收藏

Flink日志文件配置详解

在上述示例中，我们将根日志记录器（org.apache.flink）的级别设置为INFO，表示只打印INFO级别及以上的日志信息。同时，我们将数据流API的日志记录器（org.apache.flink.streaming.api.datastream）的级别设置为DEBUG，表示除了INFO级别的日

overfit同步小助手 2024-01-01 06:03:14 0 收藏

【SpringBoot系列】Springboot使用kafka的两种方式

KafkaProducer是Kafka-client提供的原生Java Kafka客户端发送消息的API。KafkaTemplate是Spring Kafka中提供的一个高级工具类，用于可以方便地发送消息到Kafka。它封装了KafkaProducer，提供了更多的便利方法和更高级的消息发送方式。

overfit同步小助手 2024-01-01 05:03:18 0 收藏

Kafka调试

kafka安装配置与调试等

overfit同步小助手 2024-01-01 02:03:13 0 收藏

《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop

大家好！今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容：Spark on YARN模式安装Hadoop。

overfit同步小助手 2023-12-31 23:03:54 0 收藏

hivesql 将json格式字符串转为数组

本案例为数仓分层设计1. 创建ods层原始数据表2. 创建dwd层维度数据表3. ETL转换ods层数据插入到dwd层

overfit同步小助手 2023-12-31 23:03:17 0 收藏

2023_Spark_实验二十：SparkStreaming累加计算单词频率

Spark Streaming 累加器案例

overfit同步小助手 2023-12-31 22:03:37 0 收藏

MQTT的奇妙之旅：探索RabbitMQ Web MQTT插件的威力【RabbitMQ 十一】

在搭建可伸缩和高性能消息队列系统时，RabbitMQ 一致性哈希交换机插件是一项强大的利器。本文深入研究了该插件的设计理念、工作原理，以及在实际项目中的应用场景。探索一种更智能、更可控的消息路由方式，引领你踏入 RabbitMQ 一致性哈希交换机的神奇世界。

overfit同步小助手 2023-12-31 22:03:34 0 收藏

基于Hadoop的云计算与大数据处理技术

对于Spark中的API来说，它支持的语言有Scala、Java和Python，由于Scala是Spark的原生语言，各种新特性肯定是Scala最先支持的，Scala语言的优势在于语法丰富且代码简洁，开发效率高。Spark的核心就是RDD，所有在RDD上的操作会被运行在Cluster上，Driver

overfit同步小助手 2023-12-31 21:03:51 0 收藏

RabbitMQ知识

RabbitMQ

overfit同步小助手 2023-12-31 21:03:40 0 收藏

kafka与beanstalk的区别

总体而言，选择 Kafka 还是 Beanstalkd 取决于你的具体需求。如果你需要处理大规模的实时数据流并且对持久性存储和数据回放有要求，那么 Kafka 可能更适合；而如果你只需要一个简单的轻量级任务队列系统，那么 Beanstalkd 可能更符合你的需求。Kafka（Apache Kafka

overfit同步小助手 2023-12-31 21:03:30 0 收藏

Kafka简单入门02——ISR机制

kafka简单入门

overfit同步小助手 2023-12-31 21:03:15 0 收藏

Hago 的 Spark on ACK 实践

长期以来，Hago 都是在 IDC 里运行大数据任务，以支撑上面的许多产品，从 2022 年开始，Hago 开始将大数据业务迁移上云，并以 Spark on ACK 的形式来运行，本文主要针对迁移过程进行介绍。

overfit同步小助手 2023-12-31 19:03:10 0 收藏

RabbitMQ的基础使用

4.监听消息使用@RabbitListener 注解必须有@EnableRabbit才能生效如果是创建交换机，创建队列不需要有@EnableRabbit注解。* @RabbitHandler 可以标在方法上场景一个队列返回的类型不同使用这个注解来重载。@RabbitHandler 可以

overfit同步小助手 2023-12-31 16:03:52 0 收藏

Hive调优之小表Join大表

结果：这样的后果就是所有为null值的id全部都变成了相同的字符串“hive”，及其容易造成数据的倾斜（所有的key相同，相同key的数据会到同一个reduce当中去）为了解决这种情况，我们可以通过hive的rand函数，随记的给每一个为空的id赋上一个随机值，这样就不会造成数据倾斜。有时虽然某个

overfit同步小助手 2023-12-31 16:03:40 0 收藏

Spark Structured Streaming使用教程

Structured Streaming是一个基于Spark SQL引擎的可扩展和容错流处理引擎，Spark SQL引擎将负责增量和连续地运行它，并在流数据继续到达时更新最终结果。

overfit同步小助手 2023-12-31 15:03:35 0 收藏

【RabbitMQ学习日记】——死信队列与延迟队列

介绍了死信队列与延迟队列的概念与用法，也包括通过死信队列实现延迟队列、通过占位符传参优化延迟队列、通过插件设置延迟队列等

overfit同步小助手 2023-12-31 12:04:07 0 收藏