推理加速 - overfit.cn

AI大模型推理的详细过程和推理优化技术，以及代码实战样例

近年来，随着计算能力的显著提升与算法的不断进步，人工智能领域迎来了一个重要的转折点——大规模预训练模型（通常简称为大模型）的发展。这些模型以其卓越的表现力在自然语言处理、图像识别等多个领域取得了令人瞩目的成就。本文旨在为读者提供关于大模型如何执行其核心任务之一——推理（inference）的全面理解

overfit同步小助手 2024-11-09 10:01:47 0 收藏

LLM推理引擎怎么选？TensorRT vs vLLM vs LMDeploy vs MLC-LLM

有很多个框架和包可以优化LLM推理和服务，所以在本文中我将整理一些常用的推理引擎并进行比较。

Deephub 2024-07-08 10:25:27 0 收藏

推测解码：在不降低准确性的情况下将LLM推理速度提高2 - 3倍

在本篇文章我们将详细讨论推测解码，这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现，并看看它与原始transformer 实现相比到底能快多少。

Deephub 2024-04-10 09:53:56 0 收藏

登录可以使用的更多功能哦！登录

作者榜

资讯小助手

资讯同步

内容小助手

文章同步

Deephub

公众号：deephub-imba

奕凯

公众号：奕凯的技术栈