模型量化 - overfit.cn

量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中，GPTQ在gpu上提供了惊人的性能。与非量化模型相比，该方法使用的VRAM几乎减少了3倍，同时提供了相似的精度水平和更快的生成速度。

Deephub 2023-11-22 10:04:29 0 收藏

在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。

Deephub 2023-11-16 10:24:42 0 收藏

在本文中，我们将介绍最流行的浮点格式，创建一个简单的神经网络，并了解它是如何工作的。

Deephub 2023-10-02 20:56:00 0 收藏

基础模型与量化模型具有相似的准确性，但模型尺寸大大减小，这在我们希望将其部署到服务器或低功耗设备上时至关重要。

Deephub 2023-09-04 10:25:41 0 收藏

登录可以使用的更多功能哦！登录

资讯同步

文章同步

公众号：deephub-imba

公众号：奕凯的技术栈