大数据 - overfit.cn

flink重温笔记（六）：Flink 流批一体 API 开发—— 数据输出 sink

今天是学习 flink 的第七天啦！学习了 flink 中 sink（数据槽）部分知识点，这一部分只要是解决数据处理之后，数据到哪里去的问题，我觉得 flink 知识点虽然比较难理解，但是代码跑通后，逻辑还是比较有趣的！Tips：毛爷爷说过：“宜将剩勇追穷寇，不可沽名学霸王！”明天周日除了复习前面

overfit同步小助手 2024-02-20 08:03:28 0 收藏

Flink与Kafka集成：实时数据流处理

1.背景介绍1. 背景介绍Apache Flink 是一个流处理框架，用于处理大规模、实时的数据流。它支持流式计算和批处理，可以处理各种数据源和数据接收器，如 Kafka、HDFS、TCP 流等。Kafka 是一个分布式流处理平台，用于构建实时数据流管道和流处理应用。Flink 与 Kafka 的集

overfit同步小助手 2024-02-20 04:03:54 0 收藏

【大数据精讲】全量同步与CDC增量同步方案对比

全量同步与CDC增量同步方案对比问题与挑战FlinkCDCFlink CDC 是以 Debezium 作为底层采集工具。Debezium 支持全量同步，也支持增量同步，也支持全量 + 增量的同步，非常灵活，同时基于日志的 CDC 技术使得提供 Exactly-Once 成为可能。DataX工作原理调

overfit同步小助手 2024-02-20 04:03:50 0 收藏

Python之PySpark常用函数示例

创建 SparkSession# 读取文本文件作为 DataFrame# 对每一行数据进行转换和处理# 将结果按照词频排序# 取出前 10 个结果# 打印结果print(f"

overfit同步小助手 2024-02-20 01:03:12 0 收藏

【大数据】Flink 架构（五）：检查点 Checkpoint（看完即懂）

本篇博客我们将介绍 Flink 的检查点（checkpoint）及故障恢复机制，看一下它们如何提供精确一次的状态一致性保障。而在下一篇博客中，我们还会讨论 Flink 所独有的保存点（savepoint）机制，它就像一把 “瑞士军刀”，解决了运行流式应用过程中的诸多难题。

overfit同步小助手 2024-02-20 00:03:22 0 收藏

第二章：AI大模型基础知识 2.1 机器学习基础

1. 背景介绍随着计算机技术的飞速发展，人工智能已经成为了当今科技领域的热门话题。在这个过程中，机器学习作为人工智能的一个重要分支，扮演着至关重要的角色。本文将从机器学习的基本概念、核心算法原理、具体操作步骤、实际应用场景等方面进行详细讲解，帮助读者更好地理解和掌握机器学习的基础知识。2. 核心概念

overfit同步小助手 2024-02-19 23:01:07 0 收藏

Spark 大数据实战：基于 RDD 的大数据处理分析

Spark集群是基于的分布式计算环境，用于处理大规模数据集的计算任务。是一个开源的、快速而通用的集群计算系统，提供了高级的数据处理接口，包括Spark SQLMLlib（机器学习库）和GraphX（图计算库）。Spark的一个主要特点是能够在内存中进行数据处理，从而大大加速计算速度。Scala编程语

overfit同步小助手 2024-02-19 22:03:51 0 收藏

Flink编程——风险欺诈检测

Apache Flink 提供了 DataStream API 来实现稳定可靠的、有状态的流处理应用程序。Flink 支持对状态和时间的细粒度控制，以此来实现复杂的事件驱动数据处理系统。这个入门指导手册讲述了如何通过 Flink DataStream API 来实现一个有状态流处理程序。

overfit同步小助手 2024-02-19 20:03:41 0 收藏

（三）hadoop之hive的搭建1

5.1上传mysql驱动mysql-connector-java-8.0.21.jar并移动到/usr/local/apache-hive-3.1.3/lib/5.2在/usr/local/apache-hive-3.1.3/conf下新增hive-site.xml文件。点击https://dlcd

overfit同步小助手 2024-02-19 20:03:27 0 收藏

Flink的检查点与容错机制实战

1.背景介绍1. 背景介绍Apache Flink 是一个流处理框架，用于实时数据处理和分析。在大规模数据处理中，容错性和高可用性是非常重要的。Flink 提供了一套强大的检查点(Checkpoint)和容错机制，以确保流处理作业的可靠性和持久性。本文将深入探讨 Flink 的检查点与容错机制，揭示

overfit同步小助手 2024-02-19 19:03:57 0 收藏

大数据基础复习题整理

大数据基础这门课的一些选择题复习题整理，希望对大家有所帮助~！

overfit同步小助手 2024-02-19 19:03:26 0 收藏

什么是研发项目管理软件？生命奇点 PowerProject 项目管理平台正式启动，打造大数据领域新标杆

奥博思软件将基于 PowerProject 项目管理系统助力生命奇点实现研发项目的全生命周期管理，提效企业管理效率！

overfit同步小助手 2024-02-19 17:03:53 0 收藏

(05) Hive的相关概念——函数介绍

HiveSQL的基础知识点

overfit同步小助手 2024-02-19 14:03:39 0 收藏

HBase数据迁移与同步实战分析

1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase具有高性能、高可用性、高可扩展性等特点，适用于大规模数据存储和实时数据

overfit同步小助手 2024-02-19 13:03:49 0 收藏

大数据Doris（二）：Doris原理篇

在SQL优化器中最重要的一个组件是查询优化器（Query Optimization），在海量数据分析中一条SQL生成的执行计划搜索空间非常庞大，查询优化器的目的就是对执行计划空间进行裁剪减少搜索空间的代价，查询优化器对于SQL的执行来说非常重要，不管是关系型数据库系统Oracle、MySQL还是大数

overfit同步小助手 2024-02-19 11:03:53 0 收藏

使用 Elasticsearch 和 OpenAI 构建生成式 AI 应用程序

这是一种特殊的字段类型，允许我们在 Elasticsearch 中存储密集向量。我们使用 Python 客户端的 bulk API 帮助程序将数据索引到 Elasticsearch 中。以下函数生成所需的批量操作，这些操作可以传递到 Elasticsearch 的 bulk API，因此我们可以在单

overfit同步小助手 2024-02-19 11:01:41 0 收藏

Flink的实时监控和警报系统

1.背景介绍Flink是一个流处理框架，用于处理大规模数据流。它提供了实时计算和流处理功能，可以用于实时分析和监控。在大数据场景中，Flink的实时监控和警报系统非常重要，可以帮助我们快速发现问题并采取措施。Flink的实时监控和警报系统包括以下几个方面：流处理任务的监控：包括任务的执行状态、性能指

overfit同步小助手 2024-02-19 09:03:45 0 收藏

HBase的数据备份与恢复策略

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等其他组件集成。HBase具有高可用性、高可扩展性和高性能等特点，适用于大规模数据存储和处理。数据备份和恢

overfit同步小助手 2024-02-19 08:03:22 0 收藏

Spark任务信息记录器的变更

overfit同步小助手 2024-02-19 07:03:52 0 收藏

2024-01-30（Hadoop_HDFS）

狭义（技术思维）：使用分布式技术完成海量数据的处理，得到数据背后蕴含的价值。广义：大数据是数字化时代，信息化时代的基础（技术）支撑，以数据为生活赋能。大数据的核心工作：从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果。（海量数据存储、海量数据传输、海量数据计算）NFS就是Network

overfit同步小助手 2024-02-19 06:03:22 0 收藏