大语言模型 - overfit.cn

RAG 2.0架构详解：构建端到端检索增强生成系统

当前RAG的问题在于各个子模块之间并没有完全协调，就像一个缝合怪一样，虽然能够工作但各部分并不和谐，所以我们这里介绍RAG 2.0的概念来解决这个问题。

Deephub 2024-04-19 11:49:26 0 收藏

ORPO偏好优化：性能和DPO一样好并且更简单的对齐方法

ORPO是另一种新的LLM对齐方法，这种方法甚至不需要SFT模型。通过ORPO，LLM可以同时学习回答指令和满足人类偏好。

Deephub 2024-04-16 10:00:37 0 收藏

PiSSA ：将模型原始权重进行奇异值分解的一种新的微调方法

我们开始看4月的新论文了，这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation（PiSSA）方法。

Deephub 2024-04-12 10:03:57 0 收藏

10个大型语言模型(LLM)常见面试问题和答案解析

今天我们来总结以下大型语言模型面试中常问的问题

Deephub 2024-04-11 10:20:34 0 收藏

推测解码：在不降低准确性的情况下将LLM推理速度提高2 - 3倍

在本篇文章我们将详细讨论推测解码，这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现，并看看它与原始transformer 实现相比到底能快多少。

Deephub 2024-04-10 09:53:56 0 收藏

5种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现

本文将介绍大语言模型中使用的不同令牌遮蔽技术，并比较它们的优点，以及使用Pytorch实现以了解它们的底层工作原理。

Deephub 2024-04-09 11:26:12 0 收藏

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

SwiGLU可以说是在大语言模型中最常用到的激活函数，我们本篇文章就来对他进行详细的介绍。

Deephub 2024-04-08 10:01:57 0 收藏

【AI视野·今日NLP 自然语言处理论文速览第八十四期】Thu, 7 Mar 2024

AI视野·今日CS.NLP 自然语言处理论文速览Thu, 7 Mar 2024Totally 52 papers👉上期速览✈更多精彩请移步主页Daily Computation and Language PapersThe Heuristic Core: Understanding Subnet

overfit同步小助手 2024-04-02 16:01:46 0 收藏

Quiet-STaR:让语言模型在“说话”前思考

本文将介绍一篇3月的论文Quiet-STaR：这是一种新的方法，通过鼓励LLM发展一种“内心独白”的形式来解决这一限制，这种基本原理生成有助于LLM通过完成任务或回答问题所涉及的步骤进行推理，最终获得更准确和结构良好的输出。

Deephub 2024-03-30 19:28:30 0 收藏

使用MergeKit创建自己的专家混合模型：将多个模型组合成单个MoE

在本文中，我们将详细介绍MoE架构是如何工作的，以及如何创建frankenmoe。最后将用MergeKit制作自己的frankenMoE，并在几个基准上对其进行评估。

Deephub 2024-03-29 11:49:54 0 收藏

如何开始定制你自己的大型语言模型

2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否可以定制我们需要的大型语言模型呢？

Deephub 2024-03-28 10:58:14 0 收藏

Chronos: 将时间序列作为一种语言进行学习

这是一篇非常有意思的论文，它将时间序列分块并作为语言模型中的一个token来进行学习，并且得到了很好的效果。

Deephub 2024-03-27 10:47:11 0 收藏

谷歌开源的LLM大模型 Gemma 简介

谷歌推出了 Gemma，一个开放大型语言模型 (LLM) 的尖端系列，标志着其致力于开源人工智能的重要一步。同时Gemma 与 Hugging Face 平台的无缝集成，可以让AIGC爱好者更好的去使用。Gemma 是基于 Gemini 技术推出的四款新型大型语言模型（LLM），提供了 2B 和 7

overfit同步小助手 2024-03-25 19:04:28 0 收藏