transformer - overfit.cn

人工智能---什么是Transformer?

Transformer是一种强大的神经网络架构，最初由Google的研究人员在论文《Attention is All You Need》中提出，用于自然语言处理任务，特别是在机器翻译方面取得了巨大成功。Transformer的核心思想是完全基于自注意力机制(self-attention mechan

overfit同步小助手 2024-05-29 08:01:52 0 收藏

SUPRA：无须额外训练，将Transformer变为高效RNN，推理速度倍增

SUPRA方法旨在将预训练的大型语言模型（LLMs）转化为RNNs，具体步骤包括替换softmax归一化为GroupNorm，使用一个小型MLP投影queries和keys。

Deephub 2024-05-27 11:25:31 0 收藏

本地部署Llama3 8b用Ollama和open-webui

设置模型 Settings > Models > Pull a model from Ollama.com。，由于笔记本GPU的限制只能部署8b 的 llama3， 4.7GB。问题：鸡兔同笼，鸡有100只，鸡足比兔足多80只，鸡兔分别有多少只？自由女神像每天一动不动，她真的自由么？下载完成后，

overfit同步小助手 2024-05-24 13:04:46 0 收藏

Linux快速部署大语言模型LLaMa3，Web可视化j交互（Ollama+Open Web UI）

本文介绍了大规模语言模型的相关概念，并介绍了使用开源工具Ollama部署LLaMa3大模型、使用Open WebUI搭建前端Web交互界面的方法和流程。

overfit同步小助手 2024-05-24 00:05:03 0 收藏

深入解析xLSTM：LSTM架构的演进及PyTorch代码实现详解

xLSTM的新闻大家可能前几天都已经看过了，原作者提出更强的xLSTM，可以将LSTM扩展到数十亿参数规模，我们今天就来将其与原始的lstm进行一个详细的对比，然后再使用Pytorch实现一个简单的xLSTM。

Deephub 2024-05-20 09:38:00 0 收藏

ATFNet：长时间序列预测的自适应时频集成网络

ATFNet是一个深度学习模型，它结合了时间域和频域模块来捕获时间序列数据中的依赖关系。这是4月发布在arxiv上的论文，还包含了源代码。

Deephub 2024-05-16 10:23:10 0 收藏

Transformers 加速的一些常用技巧

我们今天来总结以下一些常用的加速策略

Deephub 2024-05-13 10:01:55 0 收藏

Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer

Gradformer通过引入带有可学习约束的指数衰减掩码，为图Transformer提供了一种新的方法，有效地捕捉了图结构中的本地和全局信息。

Deephub 2024-05-02 09:40:45 0 收藏

Moirai：Salesforce的时间序列预测基础模型

在本文中，我们将探索用于时间序列预测的 Salesforce 新发布的基础模型 Moirai。最后我们还对比Moirai 与其他两个基础模型之间的差异

Deephub 2024-04-14 11:12:31 0 收藏

大语言模型中常用的旋转位置编码RoPE详解：为什么它比绝对或相对位置编码更好?

旋转位置嵌入是最先进的 NLP 位置嵌入技术。大多数流行的大型语言模型（如 Llama、Llama2、PaLM 和 CodeGen）已经在使用它。在本文中，我们将深入探讨什么是旋转位置编码，以及它们如何巧妙地融合绝对位置嵌入和相对位置嵌入的优点。

Deephub 2024-04-01 10:16:37 0 收藏

经典文献阅读之--Swin Transformer

Transfomer最近几年已经霸榜了各个领域，之前我们在《》这篇博客中对DETR这个系列进行了梳理，但是想着既然写了图像处理领域的方法介绍，正好也按照这个顺序来对另一个非常著名的Swin Transformer框架。框架相较于传统Transformer精度和速度比CNN稍差，Swin Transf

overfit同步小助手 2024-03-31 13:01:19 0 收藏

SiMBA：基于Mamba的跨图像和多元时间序列的预测模型

这是3月26日新发的的论文，微软的研究人员简化的基于mamba的体系结构，并且将其同时应用在图像和时间序列中并且取得了良好的成绩。

Deephub 2024-03-31 10:13:29 0 收藏

ICLR 2024 | Meta AI提出ViT寄存器结构，巧妙消除大型ViT中的伪影以提高性能

在这项工作中，作者对 DINOv2 模型特征图中的伪影进行了详尽的研究，并发现这种现象存在于多个现有的流行ViT模型中。作者提供了一种简单的检测伪影的方法，即通过测量token的特征范数来实现。通过研究这些token的局部位置和全局特征信息，作者发现，这些token对于模型性能损失存在一定的影响，并

overfit同步小助手 2024-03-30 19:01:35 0 收藏

【Transformer系列（1）】encoder（编码器）和decoder（解码器）

一文带你学会encoder-decoder框架

overfit同步小助手 2024-03-30 02:01:30 0 收藏

如何开始定制你自己的大型语言模型

2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否可以定制我们需要的大型语言模型呢？

Deephub 2024-03-28 10:58:14 0 收藏

BurstAttention:可对非常长的序列进行高效的分布式注意力计算

而最新的研究BurstAttention可以将2者结合，作为RingAttention和FlashAttention之间的桥梁。

Deephub 2024-03-23 11:10:28 0 收藏

Moment:又一个开源的时间序列基础模型

根据作者的介绍，MOMENT则是第一个开源，大型预训练时间序列模型家族。

Deephub 2024-03-21 10:02:32 0 收藏

【论文笔记】Mamba：挑战Transformer地位的新架构

Mamba的论文笔记

overfit同步小助手 2024-03-15 05:02:25 0 收藏

AI论文速读 | TimeXer：让 Transformer能够利用外部变量进行时间序列预测

最近的研究已经展现了时间序列预测显着的性能。然而，由于现实世界应用的部分观察性质，仅仅关注感兴趣的目标，即所谓的内部变量（endogenous variables），通常不足以保证准确的预测。值得注意的是，一个系统通常被记录为多个变量，其中外部序列可以为内部变量提供有价值的外部信息。因此，与之前成熟

overfit同步小助手 2024-03-13 05:01:25 0 收藏

从16-bit 到 1.58-bit ：大模型内存效率和准确性之间的最佳权衡

在本文中，我们将通过使用GPTQ对Mistral 7B、Llama 27b和Llama 13B进行8位、4位、3位和2位量化实验,还要介绍一个大模型的最新研究1.58 Bits，它只用 -1，0，1来保存权重

Deephub 2024-03-11 10:54:08 0 收藏