大数据 - overfit.cn

Flink实时大数据处理性能测试

1.背景介绍Flink是一个开源的流处理框架，用于实时大数据处理。它可以处理大量数据，提供低延迟和高吞吐量。Flink的性能测试是一项重要的任务，可以帮助我们了解其在实际应用中的表现。在本文中，我们将讨论Flink实时大数据处理性能测试的背景、核心概念、算法原理、代码实例、未来发展趋势和挑战。1.1

overfit同步小助手 2024-03-08 02:03:41 0 收藏

AI大模型应用入门实战与进阶：大模型的优化与调参技巧

AI大模型应用入门实战与进阶：大模型的优化与调参技巧作者：禅与计算机程序设计艺术1. 背景介绍1.1. AI大模型的兴起随着计算机硬件的发展和数据的积累，深度学习已经成为人工智能领域的主流技术。特

overfit同步小助手 2024-03-08 02:01:34 0 收藏

电商导购AI大语言模型的安全与隐私保护策略

1.背景介绍随着人工智能技术的飞速发展，AI大语言模型已经在各个领域得到了广泛的应用，其中电商导购是一个重要的应用场景。然而，随着AI大语言模型的广泛应用，其安全与隐私保护问题也日益突出。本文将深入探讨电商导购AI大语言模型的安全与隐私保护策略。1.1 电商导购AI大语言模型的应用

overfit同步小助手 2024-03-07 18:07:09 0 收藏

2024.1.30 Spark SQL的高级用法

N preceding : 表示往前的N行, N的取值可以是具体的数据, 也可以是关键词(unbounded(边界))lead(字段, 往后第N行, 默认值): 可以实现将对应的字段的后N行的值和当前行放置到同一行中, 如果没有, 设置为默认值。lag(字段, 往前第N行, 默认值): 可以实现将对

overfit同步小助手 2024-03-07 18:03:45 0 收藏

电商AI开源与闭源：AI大语言模型的技术选型与决策

1. 背景介绍1.1 电商行业的发展随着互联网技术的飞速发展，电商行业已经成为全球经济的重要组成部分。电商平台不仅为消费者提供了便捷的购物体验，还为企业提供了新的商业机会。然而，随着竞争的加剧，电商企业需要不断创新和优化，以提高用户体验和提升运营效率。在这个过程中，人工智能技术发挥了重要作用。

overfit同步小助手 2024-03-07 15:01:17 0 收藏

毕设开源 python 机器视觉车牌识别

HyperLPR是一个使用深度学习针对对中文车牌识别的实现，与较为流行的开源的EasyPR相比，它的检测速度和鲁棒性和多场景的适应性都要好于目前开源的EasyPR，HyperLPR可以识别多种中文车牌包括白牌，新能源车牌，使馆车牌，教练车牌，武警车牌等。**毕设帮助, 选题指导, 项目分享: **

overfit同步小助手 2024-03-07 14:04:12 0 收藏

AI人工智能产业发展三大核心趋势：多模态预训练大模型、高质量数据智能、智能算力的崛起

随着ChatGPT引发的大模型创新浪潮的持续涌动，我们正面临着一场可能比工业革命和信息革命更为深刻的人工智能革命。在这一时代背景下，无论是推动大模型从单模态发展到多模态，还是倡导高质量数据和计算新范式，我们都在强调人工智能技术变革的本质——那就是算法、数据、算力这三大基础要素的精巧配合和相互促进。

overfit同步小助手 2024-03-07 14:01:45 0 收藏

阿里面试：设计一个大并发、大数据的系统架构，说说设计思路

以上的内容，如果大家能对答如流，如数家珍，基本上面试官会被你震惊到、吸引到。最终，让面试官爱到 “不能自已、口水直流”。offer，也就来了。在面试之前，建议大家系统化的刷一波 5000页《尼恩Java面试宝典PDF》，里边有大量的大厂真题、面试难题、架构难题。很多小伙伴刷完后，吊打面试官，

overfit同步小助手 2024-03-07 12:03:51 0 收藏

Spark中写parquet文件是怎么实现的

的时候得注意不能调整过大，否则会导致OOM，但是如果在最后写文件的时候加入合并小文件的功能（AQE+Rebalance的方式），也可以适当的调整大一点，因为这个时候的Task 不像没有shuffle一样，可能还会涉及到sort以及aggregate等消耗内存的操作，（这个时候就是一个task纯写pa

overfit同步小助手 2024-03-07 11:03:57 0 收藏

初识大数据，一文掌握大数据必备知识文集(15)

MapReduce框架中的分布式缓存是一种机制，其允许在MapReduce作业执行期间，将档案（或文件）从Hadoop分布式文件系统（HDFS）复制到所有MapReduce任务所在的节点的本地文件系统中。这些档案可以是词典，配置文件，表格，甚至是代码等。分布式缓存提供了一个快速而可靠的方法，将共享的

overfit同步小助手 2024-03-07 11:03:47 0 收藏

Flink在实时搜索引擎领域的应用

1.背景介绍1. 背景介绍实时搜索引擎是现代互联网的基石之一，它可以实时提供用户查询的结果，为用户提供了快速、准确的信息获取途径。随着互联网的发展，实时搜索引擎的需求也越来越大，因此，研究和开发高性能、高效的实时搜索引擎成为了一项重要的技术任务。Apache Flink 是一个流处理框架，它可以处理

overfit同步小助手 2024-03-07 09:03:43 0 收藏

主流AI服务——大专生新就业之路

overfit同步小助手 2024-03-07 09:01:35 0 收藏

Flink

一般来说，Spark基于微批处理的方式做同步总有一个“攒批”的过程，所以会有额外开销，因此无法在流处理的低延迟上做到极致。而在海量数据的批处理领域，Spark能够处理的吞吐量更大，加上其完善的生态和成熟易用的API，目前同样优势比较明显。如下图1-4，我们无法等待所有的数据都到达，因为输入是无界的，

overfit同步小助手 2024-03-07 06:03:48 0 收藏

【大数据】Flink SQL 语法篇（六）：Temporal Join

Temporal Join 在离线的概念中其实是没有类似的 Join 概念的，但是离线中常常会维护一种表叫做拉链快照表，使用一个明细表去 Join 这个拉链快照表的 Join 方式就叫做 Temporal Join。而 Flink SQL 中也有对应的概念，表叫做Versioned Table，使用

overfit同步小助手 2024-03-07 05:03:48 0 收藏

【flink番外篇】8、flink的Checkpoint容错机制（配置、重启策略、手动恢复）介绍及示例 - 完整版

一、Flink 专栏Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。

overfit同步小助手 2024-03-07 04:03:46 0 收藏

大数据前端团队生存指南

本文会简单介绍大数据、大数据前端团队以及可落地的演进方向。ps.针对数据前端团队10人及以内的中小厂。

overfit同步小助手 2024-03-07 01:03:55 0 收藏

Flink理论—Flink架构设计

Flink 是一个分布式系统，需要有效分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器，例如，但也可以设置作为独立集群甚至库运行,例如Spark 的 Standalone Mode本节概述了 Flink 架构，并且描述了其主要组件如何交互以执行应用程序和从故障中恢复。

overfit同步小助手 2024-03-07 01:03:52 0 收藏

Spark在降本增效中的一些思考

这也是笔者一直在关注的项目，根据 TPC-H 测试结果显示起码有2倍的性能提升，但是实际效果还是得看SQL的pattern。但是由于目前我们的Spark 是基于 3.5.0的，是比较新的版本，而社区这块的融合还在继续，所以这块今年应该可以行动起来,可以参考。注意：我们批集群的CPU利用率在60%以

overfit同步小助手 2024-03-07 00:03:51 0 收藏

第四章：AI大模型的主流框架 4.4 MXNet

1. 背景介绍随着深度学习技术的快速发展，越来越多的研究者和工程师开始关注深度学习框架。深度学习框架是一种软件库，它可以帮助我们更轻松地设计、训练和部署深度学习模型。目前市面上有很多优秀的深度学习框架，如TensorFlow、PyTorch、Caffe等。本文将重点介绍MXNet，一种高效、灵活且易

overfit同步小助手 2024-03-07 00:01:11 0 收藏

GitOps实践之Argo CD

GitOps是Weaveworks公司于2017年首创的一种进行Kubernetes集群管理和应用交付的方式。GitOps通过使用Git作为声明性基础设施和应用程序的单一事实来源进行工作。GitOps的核心是将应用的声明性基础架构描述、应用源码与自动化流程存放在Git Repository中，将Gi

overfit同步小助手 2024-03-06 23:04:19 0 收藏