transformer - overfit.cn

基于Transformer架构的时间序列数据去噪技术研究

本文将详细探讨一种基于Transformer架构的时间序列去噪模型的构建过程及其应用价值。

Deephub 4 天前 0 收藏

MiTS与PoTS：面向连续值时间序列的极简Transformer架构

本文详细阐述了使原始Transformer架构能够高效处理连续值时间序列数据所需的最小化结构调整方案。

Deephub 1 个月前 0 收藏

FANformer：融合傅里叶分析网络的大语言模型基础架构

FANformer通过将傅里叶分析网络(Fourier Analysis Network, FAN)整合到Transformer的注意力机制中，形成了一种创新的模型结构。

Deephub 2025-03-11 10:26:27 0 收藏

LLM模型添加自定义Token代码示例：为Llama 3.2模型添加思考与回答标记

本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练，使模型能够有效地利用这些新增token。

Deephub 2025-02-28 20:36:22 0 收藏

STAR: 利用时空注意力机制和动态频率损失的视频超分辨率增强框架

STAR (Spatial-Temporal Augmentation with Text-to-Video Models) 提出了一种创新的视频超分辨率解决方案，针对现有模型中存在的过度平滑和时间一致性不足等问题进行了系统性改进。

Deephub 2025-02-19 10:10:03 0 收藏

记忆层增强的 Transformer 架构：通过可训练键值存储提升 LLM 性能的创新方法

Meta 研究团队通过开发**记忆层**技术，成功实现了对现有大语言模型的性能提升。该技术通过替换一个或多个 Transformer 层中的前馈网络（FFN）来实现功能。

Deephub 2025-01-23 09:50:47 0 收藏

PyTorch FlexAttention技术实践：基于BlockMask实现因果注意力与变长序列处理

本文介绍了如何利用torch 2.5及以上版本中新引入的FlexAttention和BlockMask功能来实现因果注意力机制与填充输入的处理。

Deephub 2025-01-04 09:46:04 0 收藏

线性化注意力综述：突破Softmax二次复杂度瓶颈的高效计算方案

大型语言模型在各个领域都展现出了卓越的性能，但其核心组件之一——softmax注意力机制在计算资源消耗方面存在显著局限性。本文将深入探讨如何通过替代方案实现线性时间复杂度，从而突破这一计算瓶颈。

Deephub 2024-12-31 10:05:13 0 收藏

SCOPE：面向大语言模型长序列生成的双阶段KV缓存优化框架

SCOPE框架通过分离预填充与解码阶段的KV缓存优化策略，实现了高效的缓存管理。该框架保留预填充阶段的关键KV缓存信息，并通过滑动窗口、自适应调整和不连续更新等策略，优化解码阶段的重要特征选取，显著提升了长语言模型长序列生成的性能。

Deephub 2024-12-30 09:53:03 0 收藏

LEC: 基于Transformer中间层隐藏状态的高效特征提取与内容安全分类方法

通过利用Transformer中间层的隐藏状态，研究提出了层增强分类（LEC）技术，该技术能够以极少的训练样本和参数实现高效的内容安全和提示注入攻击分类，显著提升了模型的性能，并验证了其跨架构和领域的泛化能力。

Deephub 2024-12-21 09:19:56 0 收藏

Differential Transformer: 通过差分注意力机制提升大语言模型性能

DIFF Transformer通过创新的差分注意力机制成功提升了模型性能，特别是在长文本理解、关键信息检索和模型鲁棒性等方面。

Deephub 2024-12-15 09:52:30 0 收藏

transformer.js（一）：这个前端大模型运行框架的可运行环境、使用方式、代码示例以及适合与不适合的场景

Transformer.js 是一个基于 JavaScript 的前端机器学习框架，专注于在浏览器中运行 Transformer 模型。它利用现代 Web 技术（如 WebAssembly 和 WebGPU）提供硬件加速，帮助开发者在前端环境中高效加载和推理深度学习模型，而无需依赖后端服务器。核心优

overfit同步小助手 2024-12-11 15:03:04 0 收藏

sliding window attention

同时，这种方式并不是意味着当前token只能获取到前window_size个token的信息，因为当前token前面的window_size个token也都是能够获取到前面的信息的，因此只要网络达到一定的深度，这样的sliding window attention是可行的，并不会损失太多信息。sli

overfit同步小助手 2024-12-11 02:01:46 0 收藏

前端大模型入门：Transformer.js 和 Xenova-引领浏览器端的机器学习变革

通过学会Transformer.js 和 Xenova系列模型，学会如何在网页中运行大模型吧

overfit同步小助手 2024-12-07 12:03:39 0 收藏

深入解析图神经网络：Graph Transformer的算法基础与工程实践

本文不仅是对Graph Transformer技术的深入解析，更是一份从理论到实践的完整技术指南，为那些希望在图神经网络领域深入发展的技术人员提供了宝贵的学习资源。

Deephub 2024-12-06 21:11:50 0 收藏

Hymba: 结合注意力头和SSM头的创新型语言模型方案

NVIDIA提出了Hymba架构,通过在同一层中结合注意力头和SSM头,以实现两种架构优势的互补。

Deephub 2024-12-05 09:36:21 0 收藏

Transformer模型变长序列优化：解析PyTorch上的FlashAttention2与xFormers

本文将进一步探讨变长输入序列这一挑战——这是真实世界数据（如文档、代码、时间序列等）的固有特征。

Deephub 2024-12-03 09:44:56 0 收藏

顶会新热门：小波变换×Transformer，效率翻倍的AI图像去噪神奇组合

小波变换与Transformer的结合主要探讨如何利用小波变换的多尺度特性来增强Transformer在处理信号和图像数据时的表现。具体来说，小波变换能够有效提取信号中的局部特征，并在时间和频率域上提供信息，这对于处理复杂的信号（如图像和音频）非常有用。结合小波变换的Transformer可以在保持

overfit同步小助手 2024-12-01 23:01:17 0 收藏

OPT 大语言模型（Large Language Model）结构

大语言模型follow GPT的做法，其基本组成结构是Decoder-only的Transformer block，多个Transformer Block堆叠在一起；不同数量、不同Head、不同隐藏层维度构成了不同参数量的大模型（也即模型跟着的后缀，比如，6.7B）；预训练模型参数的数据类型（大模型

overfit同步小助手 2024-11-25 16:01:37 0 收藏

图神经网络在欺诈检测与蛋白质功能预测中的应用概述

本文将深入探讨GNNs在欺诈检测和生物信息学领域的应用机制与技术原理。

Deephub 2024-11-23 09:58:51 0 收藏