大数据 - overfit.cn

打破数据孤岛：ChatGPT如何打通金融大数据的任督二脉？

本书是一本针对金融领域的数据分析和机器学习应用的实用指南。本书以ChatGPT为核心技术，结合Python编程和金融领域的基础知识，介绍如何利用ChatGPT处理和分析金融大数据，进行预测建模和智能决策。通过阅读本书，读者将掌握使用ChatGPT和其他工具进行金融大数据分析的基本原理和方法。无论是金

overfit同步小助手 2024-01-02 10:03:16 0 收藏

Flink项目实战篇基于Flink的城市交通监控平台（上）

近几年来，随着国内经济的快速发展，高速公路建设步伐不断加快，全国机动车辆、驾驶员数量迅速增长，交通管理工作日益繁重，压力与日俱增。为了提高公安交通管理工作的科学化、现代化水平，缓解警力不足，加强和保障道路交通的安全、有序和畅通，减少道路交通违法和事故的发生，全国各地建设和使用了大量的“电子警察”、“

overfit同步小助手 2024-01-02 08:03:51 0 收藏

Spark简介

Spark是大数据的调度，监控和分配引擎。它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算，但对于在磁盘上运行的复杂应用程序，系统也比MapReduce更有效。

overfit同步小助手 2024-01-02 08:03:31 0 收藏

Flink SQL: 高效解析 Kafka 数据并存储为 Parquet 至 HDFS

Flink SQL应用程序的结构是通过定义一系列任务来执行实时数据处理，这些任务创建必要的表和视图，处理数据，然后将结果插入指定的接收器。这项工作利用 Flink 的流处理能力以及 SQL 和 UDF 来转换和管理数据流

overfit同步小助手 2024-01-02 06:03:26 0 收藏

Hadoop作业篇(一）

1. 以下哪一项不属于Hadoop可以运行的模式__C____。A. 单机（本地）模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位___B___。A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hoppe

overfit同步小助手 2024-01-02 05:03:22 0 收藏

Spark Standalone 模式的安装和部署第1关： Standalone 分布式集群搭建

overfit同步小助手 2024-01-01 22:03:43 0 收藏

【大数据】Hadoop运行模式（集群搭建）

Hadoop 运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

overfit同步小助手 2024-01-01 22:03:38 0 收藏

Flink实时电商数仓之Doris框架（七）

大规模并行处理的分析型数据库产品。使用场景：一般先将原始数据经过清洗过滤转换后，再导入doris中使用。

overfit同步小助手 2024-01-01 21:03:49 0 收藏

大数据深度学习Pytorch 最全入门介绍，Pytorch入门看这一篇就够了

本文通过详细且实践性的方式介绍了 PyTorch 的使用，包括环境安装、基础知识、张量操作、自动求导机制、神经网络创建、数据处理、模型训练、测试以及模型的保存和加载。这篇文章通过详细且实践性的方式介绍了 PyTorch 的使用，包括环境安装、基础知识、张量操作、自动求导机制、神经网络创建、数据处理、

overfit同步小助手 2024-01-01 15:03:38 0 收藏

kettle—参数传递

下面我们总结了一下位置参数、命名参数、变量的优缺点，然后文章中介绍了变量的使用的两种方式通过设置变量组件设置然后获取使用通过转换获取设置变量然后获取使用位置参数（argument）命名参数（parameter）变量（variable）说明根据参数的位置来设置和读取参数值，用于在KJB外部传入，并在K

overfit同步小助手 2024-01-01 14:03:47 0 收藏

Flink CDC 1.0至3.0回忆录

overfit同步小助手 2024-01-01 14:03:30 0 收藏

大数据与深度挖掘：如何在数字营销中与研究互动

数字营销最吸引人的部分之一是对数据的内在关注。如果一种策略往往有积极的数据，那么它就更容易采用。同样，如果一种策略尚未得到证实，则很难获得支持进行测试。数字营销人员建立数据信心的主要方式是通过研究。这两个数据集在制定数字营销策略中都占有一席之地。这就是为什么过分依赖其中一个是危险的。这篇文章将着眼于

overfit同步小助手 2024-01-01 09:03:39 0 收藏

kafka

kafka什么是 KafkaKafka 是一个分布式流式平台，它有三个关键能力订阅发布记录流，它类似于企业中的消息队列或企业消息传递系统以容错的方式存储记录流实时记录流Kafka 的应用作为消息系统作为存储系统作为流处理器Kafka 可以建立流数据管道，可靠性的在系统或应用之间获取数据。建立流式

overfit同步小助手 2024-01-01 08:03:38 0 收藏

Flink日志文件配置详解

在上述示例中，我们将根日志记录器（org.apache.flink）的级别设置为INFO，表示只打印INFO级别及以上的日志信息。同时，我们将数据流API的日志记录器（org.apache.flink.streaming.api.datastream）的级别设置为DEBUG，表示除了INFO级别的日

overfit同步小助手 2024-01-01 06:03:14 0 收藏

《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop

大家好！今天为大家分享的是《PySpark大数据分析实战》第2章第4节的内容：Spark on YARN模式安装Hadoop。

overfit同步小助手 2023-12-31 23:03:54 0 收藏

hivesql 将json格式字符串转为数组

本案例为数仓分层设计1. 创建ods层原始数据表2. 创建dwd层维度数据表3. ETL转换ods层数据插入到dwd层

overfit同步小助手 2023-12-31 23:03:17 0 收藏

2023_Spark_实验二十：SparkStreaming累加计算单词频率

Spark Streaming 累加器案例

overfit同步小助手 2023-12-31 22:03:37 0 收藏

基于Hadoop的云计算与大数据处理技术

对于Spark中的API来说，它支持的语言有Scala、Java和Python，由于Scala是Spark的原生语言，各种新特性肯定是Scala最先支持的，Scala语言的优势在于语法丰富且代码简洁，开发效率高。Spark的核心就是RDD，所有在RDD上的操作会被运行在Cluster上，Driver

overfit同步小助手 2023-12-31 21:03:51 0 收藏

Hago 的 Spark on ACK 实践

长期以来，Hago 都是在 IDC 里运行大数据任务，以支撑上面的许多产品，从 2022 年开始，Hago 开始将大数据业务迁移上云，并以 Spark on ACK 的形式来运行，本文主要针对迁移过程进行介绍。

overfit同步小助手 2023-12-31 19:03:10 0 收藏

Spark Structured Streaming使用教程

Structured Streaming是一个基于Spark SQL引擎的可扩展和容错流处理引擎，Spark SQL引擎将负责增量和连续地运行它，并在流数据继续到达时更新最终结果。

overfit同步小助手 2023-12-31 15:03:35 0 收藏