大数据 - overfit.cn

Flink CDC和Flink SQL构建实时数仓Flink写入Doris

overfit同步小助手 2024-01-01 18:03:17 0 收藏

大数据深度学习Pytorch 最全入门介绍，Pytorch入门看这一篇就够了

本文通过详细且实践性的方式介绍了 PyTorch 的使用，包括环境安装、基础知识、张量操作、自动求导机制、神经网络创建、数据处理、模型训练、测试以及模型的保存和加载。这篇文章通过详细且实践性的方式介绍了 PyTorch 的使用，包括环境安装、基础知识、张量操作、自动求导机制、神经网络创建、数据处理、

overfit同步小助手 2024-01-01 15:03:38 0 收藏

kettle—参数传递

下面我们总结了一下位置参数、命名参数、变量的优缺点，然后文章中介绍了变量的使用的两种方式通过设置变量组件设置然后获取使用通过转换获取设置变量然后获取使用位置参数（argument）命名参数（parameter）变量（variable）说明根据参数的位置来设置和读取参数值，用于在KJB外部传入，并在K

overfit同步小助手 2024-01-01 14:03:47 0 收藏

Flink CDC 1.0至3.0回忆录

overfit同步小助手 2024-01-01 14:03:30 0 收藏

Kafka 架构深度解析：生产者（Producer）和消费者（Consumer）

Kafka 默认提供了一些基本的序列化和反序列化器，但你也可以根据需求自定义实现。这在处理复杂数据结构时非常有用。// 示例代码：自定义序列化器@Override// 实现自定义序列化逻辑Apache Kafka 架构中的生产者和消费者是构建实时数据流系统的关键组件，本文深入剖析了它们的工作原理、核

overfit同步小助手 2024-01-01 13:03:44 0 收藏

【头歌实训】PySpark Streaming 入门

第1关：SparkStreaming 基础与套接字流第2关：文件流第3关：RDDSpark Streaming 为 Spark 提供了可拓展、高吞吐、容错的流计算能力。Spark Streaming 可整合多种输入数据源，如 Kafka、Flume、HDFS，甚至是普通的 TCP 套接字。经处理后的

overfit同步小助手 2024-01-01 12:03:41 0 收藏

SpringBoot 3 集成Hive 3

造成此问题的原因是:spring boot 默认日志为logback, 而引用的hive-jdbc 及其关联jar 使用的日志为 log4j ，造成SLF4J 绑定冲突。我这边编写一个简单的Controller，打印Hive 默认数据库包含数据库名称。造成此类问题的原因：hiveserver2 服

overfit同步小助手 2024-01-01 10:03:51 0 收藏

大数据与深度挖掘：如何在数字营销中与研究互动

数字营销最吸引人的部分之一是对数据的内在关注。如果一种策略往往有积极的数据，那么它就更容易采用。同样，如果一种策略尚未得到证实，则很难获得支持进行测试。数字营销人员建立数据信心的主要方式是通过研究。这两个数据集在制定数字营销策略中都占有一席之地。这就是为什么过分依赖其中一个是危险的。这篇文章将着眼于

overfit同步小助手 2024-01-01 09:03:39 0 收藏

RabbitMQ高级特性2 、TTL、死信队列和延迟队列

1. 死信交换机和死信队列和普通的没有区别2. 当消息成为死信后，如果该队列绑定了死信交换机，则消息会被死信交换机重新路由到死信队列3. 消息成为死信的三种情况：1. 队列消息长度到达限制；2. 消费者拒接消费消息，并且不重回队列；3. 原队列存在消息过期设置，消息到达超时时间未被消费；

overfit同步小助手 2024-01-01 08:03:49 0 收藏

kafka

kafka什么是 KafkaKafka 是一个分布式流式平台，它有三个关键能力订阅发布记录流，它类似于企业中的消息队列或企业消息传递系统以容错的方式存储记录流实时记录流Kafka 的应用作为消息系统作为存储系统作为流处理器Kafka 可以建立流数据管道，可靠性的在系统或应用之间获取数据。建立流式

overfit同步小助手 2024-01-01 08:03:38 0 收藏

Flink日志文件配置详解

在上述示例中，我们将根日志记录器（org.apache.flink）的级别设置为INFO，表示只打印INFO级别及以上的日志信息。同时，我们将数据流API的日志记录器（org.apache.flink.streaming.api.datastream）的级别设置为DEBUG，表示除了INFO级别的日

overfit同步小助手 2024-01-01 06:03:14 0 收藏

【SpringBoot系列】Springboot使用kafka的两种方式

KafkaProducer是Kafka-client提供的原生Java Kafka客户端发送消息的API。KafkaTemplate是Spring Kafka中提供的一个高级工具类，用于可以方便地发送消息到Kafka。它封装了KafkaProducer，提供了更多的便利方法和更高级的消息发送方式。

overfit同步小助手 2024-01-01 05:03:18 0 收藏

Kafka调试

kafka安装配置与调试等

overfit同步小助手 2024-01-01 02:03:13 0 收藏

《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop

大家好！今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容：Spark on YARN模式安装Hadoop。

overfit同步小助手 2023-12-31 23:03:54 0 收藏

hivesql 将json格式字符串转为数组

本案例为数仓分层设计1. 创建ods层原始数据表2. 创建dwd层维度数据表3. ETL转换ods层数据插入到dwd层

overfit同步小助手 2023-12-31 23:03:17 0 收藏

2023_Spark_实验二十：SparkStreaming累加计算单词频率

Spark Streaming 累加器案例

overfit同步小助手 2023-12-31 22:03:37 0 收藏

MQTT的奇妙之旅：探索RabbitMQ Web MQTT插件的威力【RabbitMQ 十一】

在搭建可伸缩和高性能消息队列系统时，RabbitMQ 一致性哈希交换机插件是一项强大的利器。本文深入研究了该插件的设计理念、工作原理，以及在实际项目中的应用场景。探索一种更智能、更可控的消息路由方式，引领你踏入 RabbitMQ 一致性哈希交换机的神奇世界。

overfit同步小助手 2023-12-31 22:03:34 0 收藏

基于Hadoop的云计算与大数据处理技术

对于Spark中的API来说，它支持的语言有Scala、Java和Python，由于Scala是Spark的原生语言，各种新特性肯定是Scala最先支持的，Scala语言的优势在于语法丰富且代码简洁，开发效率高。Spark的核心就是RDD，所有在RDD上的操作会被运行在Cluster上，Driver

overfit同步小助手 2023-12-31 21:03:51 0 收藏

RabbitMQ知识

RabbitMQ

overfit同步小助手 2023-12-31 21:03:40 0 收藏

kafka与beanstalk的区别

总体而言，选择 Kafka 还是 Beanstalkd 取决于你的具体需求。如果你需要处理大规模的实时数据流并且对持久性存储和数据回放有要求，那么 Kafka 可能更适合；而如果你只需要一个简单的轻量级任务队列系统，那么 Beanstalkd 可能更符合你的需求。Kafka（Apache Kafka

overfit同步小助手 2023-12-31 21:03:30 0 收藏