大语言模型系列-Transformer

Transformer模型的核心思想是利用自注意力机制来捕捉输入序列中的长距离依赖关系,从而有效地处理序列数据。它摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)结构,通过编码器-解码器架构实现了并行化计算,大大提高了训练效率。

与传统RNN相比,AI模型当红大神Transformer有什么新魔法呢?

在处理“我决定明年再回去”这一小部分时,自注意力机制允许模型直接关联到“去年我去了西湖”中的“西湖”,从而建立了一个直接的联系。这是因为在计算注意力分数时,每个单词的表示(查询)会与所有其他单词的表示(键)进行比较,从而直接捕捉到它们之间的相关性,无论它们在文本中的距离如何。然而,由于RNN在处理序

颠覆性突破 | 斯坦福推出“TTT新架构”,超越Transformer与Mamba,让模型{学会学习}!

解码器也是由多个相同的层堆叠而成,与编码器类似,但还包括额外的自注意力机制层,用于对编码器的输出进行进一步的上下文感知。如上图所示,在左边,我们观察到Mamba,当今最受欢迎的RNN之一,它的规模与强大的Transformer相似,显示出自2020年LSTM以来的巨大进步。然而,在右边,我们观察到。

注意力机制中三种掩码技术详解和Pytorch实现

在这篇文章中,我们将探索在注意力机制中使用的各种类型的掩码,并在PyTorch中实现它们。

Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE

绝对和相对位置编码是最常见的两种位置编码方式,但是本文将要比较更高级的位置编码方法: 1、RoPE 位置编码及其变体 2、CoPE

Transformer 能代替图神经网络吗?

今天介绍的这篇论文叫“Understanding Transformer Reasoning Capabilities via Graph Algorithms”

Salesforce AI研究: 从奖励建模到在线RLHF工作流

该研究对RLHF的基础理论、偏好模型的构建以及迭代策略优化等内容进行了深入的讲解,展示了扎实的理论基础和实践经验。

Pixel Transformer:用像素代替补丁可以提升图像分类精度

本文将讨论Pixel Transformer的复杂性,创新方法,以及它对人工智能和计算机视觉未来的重要影响。

Transformer模型:人工智能技术发展的里程碑

Google在人工智能领域的贡献是不可小觑的,尤其是在Transformer模型的研究和发展中。Transformer模型最初由Vaswani等人在2017年的论文《Attention is All You Need》中提出。这一模型的核心思想是利用“自注意力(Self-Attention)”机制来

【机器学习】QLoRA:基于PEFT亲手微调你的第一个AI大模型

本文首先对量化和微调的原理进行剖析,接着以Qwen2-7B为例,基于QLoRA、PEFT一步一步带着大家微调自己的大模型,本文参考全网peft+qlora微调教程,一步一排坑,让大家在网络环境不允许的情况下,也能丝滑的开启大模型微调之旅。

关于开源大模型必须知道的 10 件事

本文将向你介绍使用开源大语言模型需要了解的 10 个关键点。阅读完本文后,你将能够在庞大的 AI 世界中找到方向,了解你需要做什么,以及完成这些任务所需的工具。

Tiny Time Mixers (TTM)轻量级时间序列基础模型:无需注意力机制,并且在零样本预测方面表现出色

TTM是一个轻量级的,基于mlp的基础TS模型(≤1M参数),在零样本预测方面表现出色,甚至优于较大的SOTA模型。

Llama 3 模型家族构建安全可信赖企业级AI应用之使用 Llama Guard 保护大模型对话 (八)

基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (一)基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (二)基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (三)基于 LlaMA 3 + LangGraph 在

14篇最新Transformer热门论文!涵盖注意力机制、架构改进、适用性扩展等

实验表明,M2在非因果BERT风格语言建模、ViT风格图像分类和因果GPT风格语言建模中表现出色,与BERT-base和BERT-large在GLUE质量上相匹配,参数最多减少27%,在ImageNet上精度提高,同时在The PILE的预训练困惑中以360M参数匹配GPT风格的Transforme

从《2024 年人工智能指数报告》可以看出什么?AI的现状和可见的未来?

近日,斯坦福大学以人为本AI研究所(Stanford HAI)发布了《2024 年人工智能指数报告》(Artificial Intelligence Index Report 2024)。据Stanford HAI 官方介绍道:“这是我们迄今为止最全面的报告,而且是在人工智能对社会的影响从未如此明显

Block Transformer:通过全局到局部的语言建模加速LLM推理

在这篇论文中,作者提出了Block Transformer架构,该架构通过在较低层次之间的粗糙块(每个块代表多个令牌)的自注意力来模拟全局依赖性,并在较高层次的每个局部块内解码细粒度的令牌,

8类CNN-Transformer混合架构魔改方案盘点,附23个配套模型&代码

为进一步提高模型的性能,我们将。目前,它已经成为我们研究视觉任务、发文章离不开的模型。针对CNN+transformer组合方向的研究也成为了当下计算机视觉领域研究中的大热主题。CNN-Transformer架构凭借众所周知的优势,在视觉任务上取得了令人瞩目的效果,它不仅可以提高模型在多种计算机视觉

模型被投毒攻击,如今有了新的安全手段,还被AI顶刊接收

诚实节点则会收到奖励。:FLock 的实验结果也指出,在恶意节点占比较多的时候(即 \eta 增大时),较大的惩罚力度也会造成部分诚实节点的存活时间缩短(因为每一轮的提议者和投票者是随机选取的)。基于 PoS 和《The Resistance》的启发,FLock 提出了一个新颖的基于区块链的 FL

【海思Hi3516CV610】是面向新一代视频编解码标准、网络安全和隐私保护、人工智能行业应用方面的IPC SoC

海思Hi3516CV610是面向新一代视频编解码标准、网络安全和隐私保护、人工智能行业应用方面的IPC SoC

人工智能(二)-Transformer模型

上篇文章以对话模式为例讲了目前人工智能的整体架构,但是大模型依然有很多细节问题,这里作者讲一讲目前的Transformers模型原理。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈