人工智能---什么是Transformer?
Transformer是一种强大的神经网络架构,最初由Google的研究人员在论文《Attention is All You Need》中提出,用于自然语言处理任务,特别是在机器翻译方面取得了巨大成功。Transformer的核心思想是完全基于自注意力机制(self-attention mechan

SUPRA:无须额外训练,将Transformer变为高效RNN,推理速度倍增
SUPRA方法旨在将预训练的大型语言模型(LLMs)转化为RNNs,具体步骤包括替换softmax归一化为GroupNorm,使用一个小型MLP投影queries和keys。
本地部署Llama3 8b用Ollama和open-webui
设置模型 Settings > Models > Pull a model from Ollama.com。, 由于笔记本GPU的限制只能部署8b 的 llama3, 4.7GB。问题: 鸡兔同笼,鸡有100只,鸡足比兔足多80只,鸡兔分别有多少只?自由女神像每天一动不动,她真的自由么?下载完成后,
Linux快速部署大语言模型LLaMa3,Web可视化j交互(Ollama+Open Web UI)
本文介绍了大规模语言模型的相关概念,并介绍了使用开源工具Ollama部署LLaMa3大模型、使用Open WebUI搭建前端Web交互界面的方法和流程。

深入解析xLSTM:LSTM架构的演进及PyTorch代码实现详解
xLSTM的新闻大家可能前几天都已经看过了,原作者提出更强的xLSTM,可以将LSTM扩展到数十亿参数规模,我们今天就来将其与原始的lstm进行一个详细的对比,然后再使用Pytorch实现一个简单的xLSTM。

ATFNet:长时间序列预测的自适应时频集成网络
ATFNet是一个深度学习模型,它结合了时间域和频域模块来捕获时间序列数据中的依赖关系。这是4月发布在arxiv上的论文,还包含了源代码。

Transformers 加速的一些常用技巧
我们今天来总结以下一些常用的加速策略

Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer
Gradformer通过引入带有可学习约束的指数衰减掩码,为图Transformer提供了一种新的方法,有效地捕捉了图结构中的本地和全局信息。

Moirai:Salesforce的时间序列预测基础模型
在本文中,我们将探索用于时间序列预测的 Salesforce 新发布的基础模型 Moirai。最后我们还对比Moirai 与其他两个基础模型之间的差异

大语言模型中常用的旋转位置编码RoPE详解:为什么它比绝对或相对位置编码更好?
旋转位置嵌入是最先进的 NLP 位置嵌入技术。大多数流行的大型语言模型(如 Llama、Llama2、PaLM 和 CodeGen)已经在使用它。在本文中,我们将深入探讨什么是旋转位置编码,以及它们如何巧妙地融合绝对位置嵌入和相对位置嵌入的优点。
经典文献阅读之--Swin Transformer
Transfomer最近几年已经霸榜了各个领域,之前我们在《》这篇博客中对DETR这个系列进行了梳理,但是想着既然写了图像处理领域的方法介绍,正好也按照这个顺序来对另一个非常著名的Swin Transformer框架。框架相较于传统Transformer精度和速度比CNN稍差,Swin Transf

SiMBA:基于Mamba的跨图像和多元时间序列的预测模型
这是3月26日新发的的论文,微软的研究人员简化的基于mamba的体系结构,并且将其同时应用在图像和时间序列中并且取得了良好的成绩。
ICLR 2024 | Meta AI提出ViT寄存器结构,巧妙消除大型ViT中的伪影以提高性能
在这项工作中,作者对 DINOv2 模型特征图中的伪影进行了详尽的研究,并发现这种现象存在于多个现有的流行ViT模型中。作者提供了一种简单的检测伪影的方法,即通过测量token的特征范数来实现。通过研究这些token的局部位置和全局特征信息,作者发现,这些token对于模型性能损失存在一定的影响,并
【Transformer系列(1)】encoder(编码器)和decoder(解码器)
一文带你学会encoder-decoder框架

如何开始定制你自己的大型语言模型
2023年的大型语言模型领域经历了许多快速的发展和创新,发展出了更大的模型规模并且获得了更好的性能,那么我们普通用户是否可以定制我们需要的大型语言模型呢?

BurstAttention:可对非常长的序列进行高效的分布式注意力计算
而最新的研究BurstAttention可以将2者结合,作为RingAttention和FlashAttention之间的桥梁。

Moment:又一个开源的时间序列基础模型
根据作者的介绍,MOMENT则是第一个开源,大型预训练时间序列模型家族。
【论文笔记】Mamba:挑战Transformer地位的新架构
Mamba的论文笔记
AI论文速读 | TimeXer:让 Transformer能够利用外部变量进行时间序列预测
最近的研究已经展现了时间序列预测显着的性能。然而,由于现实世界应用的部分观察性质,仅仅关注感兴趣的目标,即所谓的内部变量(endogenous variables),通常不足以保证准确的预测。值得注意的是,一个系统通常被记录为多个变量,其中外部序列可以为内部变量提供有价值的外部信息。因此,与之前成熟

从16-bit 到 1.58-bit :大模型内存效率和准确性之间的最佳权衡
在本文中,我们将通过使用GPTQ对Mistral 7B、Llama 27b和Llama 13B进行8位、4位、3位和2位量化实验,还要介绍一个大模型的最新研究1.58 Bits,它只用 -1,0,1来保存权重