模型训练系列:1、用清华ChatGLM-6B模型部署自己的本地AI助手
首先需要搞一台GPU较强的机器,推荐先租一台腾讯云、阿里云等AI训练的机器,T4显卡就行,一般价格是按量付费几毛钱一个小时。最近清华大学开源的ChatGLM-6B语言模型在国际上大出风头,仅仅62亿参数的小模型,能力却很强。#运行ChatGLM6B 的web版聊天程序,即可访问http://主机IP
使用GGML和LangChain在CPU上运行量化的llama2
在本文,我们将紧跟趋势介绍如何在本地CPU推理上运行量化版本的开源Llama 2。
LLM系列 | 02: Vicuna简介及模型部署实测
Vicuna-13B是在LLaMa-13B的基础上使用监督数据微调得到的模型,数据集来自于ShareGPT.com产生的用户对话数据,共70K条。使用 GPT-4 作为判断的初步评估表明,Vicuna-13B 达到了 OpenAI ChatGPT 和 Google Bard 90% 以上的质量,同时
【LLM】Windows本地CPU部署民间版中文羊驼模型踩坑记录
想必有小伙伴也想跟我一样体验下部署大语言模型, 但碍于经济实力, 不过民间上出现了大量的量化模型, 我们平民也能体验体验啦~, 该模型可以在笔记本电脑上部署, 确保你电脑至少有16G运行内存。
模型杂谈:使用 IN8 量化推理运行 Meta “开源泄露”的大模型(LLaMA)
接着之前文章《模型杂谈:快速上手元宇宙大厂 Meta “开源泄露”的大模型(LLaMA)》一文中的话题,继续聊聊如何使用 INT8 量化的方式来让低显存的设备能够将模型运行起来。