注意力机制中三种掩码技术详解和Pytorch实现

在这篇文章中,我们将探索在注意力机制中使用的各种类型的掩码,并在PyTorch中实现它们。

Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE

绝对和相对位置编码是最常见的两种位置编码方式,但是本文将要比较更高级的位置编码方法: 1、RoPE 位置编码及其变体 2、CoPE

Doping:使用精心设计的合成数据测试和评估异常检测器的技术

使用Doping方法,真实数据行会被(通常是)随机修改,修改的方式是确保它们在某些方面可能成为异常值,这时应该被异常检测器检测到。然后通过评估检测器检测Doping记录的效果来评估这些检测器。

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘,使神经网络在获得新技能的同时保留先前学习任务的知识。

Lookback Lens:用注意力图检测和减轻llm的幻觉

这篇论文的作者提出了一个简单的幻觉检测模型,其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。

LLM代理应用实战:构建Plotly数据可视化代理

我们构建一个数据可视化的代理,通过代理我们只需提供很少的信息就能够让LLM生成我们定制化的图表。

统计学入门:时间序列分析基础知识详解

时间序列分析中包含了许多复杂的数学公式,它们往往难以留存于记忆之中。为了更好地掌握这些内容,本文将整理并总结时间序列分析中的一些核心概念,如自协方差、自相关和平稳性等

11个提升Python列表编码效率的高级技巧

Python中关于列表的一些很酷的技巧

LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM

有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。

PyTorch中的多进程并行处理

这篇文章我们将介绍如何利用torch.multiprocessing模块,在PyTorch中实现高效的多进程处理。

2024年6月后2周重要的大语言模型论文总结:LLM进展、微调、推理和对齐

本文总结了2024年6月后两周发表的一些最重要的大语言模型论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。

RouteLLM:高效LLM路由框架,可以动态选择优化成本与响应质量的平衡

该论文提出了一个新的框架,用于在强模型和弱模型之间进行查询路由选择。通过学习用户偏好数据,预测强模型获胜的概率,并根据成本阈值来决定使用哪种模型处理查询 。该研究主要应用于大规模语言模型(LLMs)的实际部署中,通过智能路由在保证响应质量的前提下显著降低成本。

字符串相似度算法完全指南:编辑、令牌与序列三类算法的全面解析与深入分析

在自然语言处理领域,人们经常需要比较字符串,这些字符串可能是单词、句子、段落甚至是整个文档。本文将详细介绍这个问题。

使用 PyTorch 创建的多步时间序列预测的 Encoder-Decoder 模型

本文提供了一个用于解决 Kaggle 时间序列预测任务的 encoder-decoder 模型,并介绍了获得前 10% 结果所涉及的步骤。

图神经网络版本的Kolmogorov Arnold(KAN)代码实现和效果对比

今天我们就来使用KAN创建一个图神经网络Graph Kolmogorov Arnold(GKAN),来测试下KAN是否可以在图神经网络方面有所作为。

DeepMind的新论文,长上下文的大语言模型能否取代RAG或者SQL这样的传统技术呢?

关于长上下文大型语言模型是否真正利用其巨大的上下文窗口,以及它们是否真的更优越

深入解析高斯过程:数学理论、重要概念和直观可视化全解

在这篇文章中,我将详细介绍高斯过程。并可视化和Python实现来解释高斯过程的数学理论。

Transformer 能代替图神经网络吗?

今天介绍的这篇论文叫“Understanding Transformer Reasoning Capabilities via Graph Algorithms”

RAG流程优化(微调)的4个基本策略

在本文中,我们将介绍使用私有数据优化检索增强生成(RAG)的四种策略,可以提升生成任务的质量和准确性。通过使用一些优化策略,可以有效提升检索增强生成系统的性能和输出质量,使其在实际应用中能够更好地满足需求。

Theta方法:一种时间序列分解与预测的简化方法

Theta方法整合了两个基本概念:分解时间序列和利用基本预测技术来估计未来的价值。

个人信息

加入时间:2020-01-23

最后活动:5 小时前

发帖数:2254

回复数:1