大数据 - overfit.cn

【大数据面试题】007 谈一谈 Flink 背压

在流式处理框架中，如果下游的处理速度，比上游的输入数据小，就会导致程序处理慢，不稳定，甚至出现崩溃等问题。

overfit同步小助手 2024-02-25 17:03:51 0 收藏

Spark On Hive原理和配置

包含Hive、MySQL等安装配置

overfit同步小助手 2024-02-25 17:03:28 0 收藏

大数据Doris（六十四）：Doris on ES在快手商业化的业务场景介绍

理论上都是维表主键为唯一ID来填充所有维度，这样只是冗余存储了多条维度数据，但是在OLAP引擎里，不管是DRUID、KYLIN还是DORIS都不会造成数据量的基数膨胀。维度数据与事实数据完全分离，维度数据用专门的引擎存储(如mysql、elasticsearch等等)，可以支持高频update操作，

overfit同步小助手 2024-02-25 15:03:43 0 收藏

Linux系统下Spark的下载与安装（pyspark运行示例）

最近需要完成数据课程的作业，因此实践了一下如何安装并配置好spark。

overfit同步小助手 2024-02-25 15:03:39 0 收藏

大数据本地环境搭建03-Spark搭建

需要提前部署好 Zookeeper/Hadoop/Hive 环境。

overfit同步小助手 2024-02-25 13:03:40 0 收藏

Spark中多分区写文件前可以不排序么

会根据partition或者bucket作为最细粒度来作为writer的标准，如果相邻的两条记录所属不同的partition或者bucket，则会切换writer，所以说如果不根据partition或者bucket排序的话，会导致。频繁的切换，这会大大降低文件的写入速度。目前 Spark中的实现中，

overfit同步小助手 2024-02-25 12:03:47 0 收藏

Kafka 命令行操作

Kafka常用命令行操作，Shell，.sh

overfit同步小助手 2024-02-25 08:03:45 0 收藏

大数据StarRocks(五) ：数据类型

StarRocks 支持数据类型：数值类型、字符串类型、日期类型、半结构化类型、其他类型。您在建表时可以指定以下类型的列，向表中导入该类型的数据并查询数据。5.1 数值类型SMALLINT 2 字节有符号整数，范围 [-32768, 32767]INT 4 字节有符号整数，范围 [-21474836

overfit同步小助手 2024-02-25 06:03:36 0 收藏

Flink基础篇｜001_Flink是什么

我们通常说的Flink是来Apache Flink，他是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持

overfit同步小助手 2024-02-25 06:03:33 0 收藏

互联网高科技公司领导AI工业化，MatrixGo加速人工智能落地

澳鹏中国高级产研总监张童皓表示，2022年将是AI标注数据供给产业的一个分水岭——之前的AI标注数据行业最佳实践逐渐沉淀为可复用的软件工具，以更为自动化、标准化和规模化可扩展的方式，为整个AI模型生命周期提供高精度和高质量的标注数据，满足数据采集、标注、数据版本更新、AI模型再训练等端到端过程，以工

overfit同步小助手 2024-02-25 06:01:46 0 收藏

第一章：AI大模型概述1.1 AI大模型的定义与特点1.1.1 什么是AI大模型

1.背景介绍AI大模型是指具有极大规模、高度复杂结构和强大计算能力的人工智能模型。这类模型通常用于处理大规模、高维度的数据，并能够实现复杂的智能任务，如自然语言处理、图像识别、推荐系统等。AI大模型的发展与人工智能领域的进步紧密相连，它们共同推动了各种新的应用和技术创新。1.1 人工智能的发展历程

overfit同步小助手 2024-02-25 06:01:26 0 收藏

【Flink-1.17-教程】-【五】Flink 中的时间和窗口（1）窗口（Window）

在批处理统计中，我们可以等待一批数据都到齐后，统一处理。但是在实时处理统计中，我们是来一条就得处理一条，那么我们怎么统计最近一段时间内的数据呢？引入“窗口”。所谓的“窗口”，一般就是划定的一段时间范围，也就是“时间窗”；对在这范围内的数据进行处理，就是所谓的窗口计算。所以窗口和时间往往是分不开的。接

overfit同步小助手 2024-02-25 04:03:54 0 收藏

面试:大数据和深度学习之间的关系是什么?

大数据的定义与特点:大数据指的是规模(数据量)、多样性(数据类型)和速度(数据生成及处理速度)都超出了传统数据处理软件和硬件能力范围的数据集。它具有四个主要特点，通常被称为4V:Volume(体量)、Velocity(速度)Variety(多样性)和Veracity(真实性)大数据与深度学习的关系，

overfit同步小助手 2024-02-25 04:03:14 0 收藏

flink多流操作（connect cogroup union broadcast）

2 connect连接操作2.1 connect 连接（DataStream,DataStream→ConnectedStreams)connect 翻译成中文意为连接，可以将两个数据类型一样也可以类型不一样 DataStream 连接成一个新的 ConnectedStreams。需要注意的是，c

overfit同步小助手 2024-02-25 03:03:43 0 收藏

第四章：AI大模型的主流框架 4.3 Keras

1.背景介绍1. 背景介绍Keras是一个开源的深度学习框架，基于Python编写，可以用于构建和训练神经网络。它简单易用，具有高度可扩展性，可以与其他深度学习框架（如TensorFlow、Theano和CNTK）一起工作。Keras被广泛应用于图像识别、自然语言处理、语音识别等领域。Ker

overfit同步小助手 2024-02-25 02:01:41 0 收藏

2024最新Spark核心知识点总结

转换(transformations) ：从已经存在的数据集中创建一个新的数据集，会创建一个新的RDD，例如map操作，会把数据集的每个元素传给函数处理，并生成一个新的RDD，常见如：Map,Filter,FlatMap,GroupByKey,ReduceByKey,Join,Sort,Partio

overfit同步小助手 2024-02-24 22:03:56 0 收藏

数据安全与隐私保护：人工智能与大数据的发展与应用

1.背景介绍在当今的数字时代，数据已经成为了企业和组织的重要资产，而数据安全和隐私保护则成为了各个领域的关注焦点。随着人工智能(AI)和大数据技术的不断发展和应用，数据安全和隐私保护问题更加突出。AI和大数据技术在各个领域的应用，对于数据的收集、处理和分析产生了巨大的需求，但同时也带来了数据安全和隐

overfit同步小助手 2024-02-24 20:01:30 0 收藏

Apache Hadoop介绍, 大数据世界的大门

存储: HDFS, HBase计算: MapReduce, Hive, Spark, Flink传输: Sqoop, Flume, Kafka...下面是关于大数据体系的详细概念图Hadoop之父: 道格卡丁(Doug Cutting)吉祥物: 大象Hadoop的介绍:在狭义上指的是HDFS,

overfit同步小助手 2024-02-24 17:03:18 0 收藏

【Git】：分支管理

查看，创建，销毁，合并分支.....操作，分支冲突问题以及分支使用策略

overfit同步小助手 2024-02-24 16:04:30 0 收藏

【并发编程】JUC并发编程（彻底搞懂JUC）

JUC实际上就是我们对于jdk中java.util .concurrent 工具包的简称，其结构如下：这个包下都是Java处理线程相关的类，自jdk1.5后出现。目的就是为了更好的支持高并发任务。让开发者进行多线程编程时减少竞争条件和死锁的问题！JUC主要是指JDK8中java.util.concu

overfit同步小助手 2024-02-24 14:03:41 0 收藏