LLAma-Factory框架详细使用方法-0.8.3版本

一、安装 LLaMA Factory

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git #拉取代码到本地
cd LLaMA-Factory #进入目录

conda create -n llamafactory python=3.11 #创建python环境

conda activate llamafactory #进入conda环境
pip install -e ".[torch,metrics]" #下载环境包

可选的额外依赖项：torch、torch-npu、metrics、deepspeed、bitsandbytes、hqq、eetq、gptq、awq、aqlm、vllm、galore、badam、qwen、modelscope、quality

因为我们后续单机多卡会用到deepspeed，所以我们可以提前下载

pip install deepspeed

当我们安装好环境后，可以看一下我们的llama-factory的版本，命令： llamafactory-cli env

二、LLaMA Board

他是一个可视化的web页面，可以手动去配置参数，可进行推理，微调，非常的方便，由gradio驱动。

启动命令：

llamafactory-cli webui

我们也可以在启动之前限制显卡等等数量，启动命令如下：
export CUDA_VISIBLE_DEVICES=1,2,3,4

llamafactory-cli webui

打开链接后的页面展示

每个参数的作用这里我就不具体解释了，网上一搜一大把，如果是新手，我建议去bilibili搜一个LLaMA Board参数讲解视频细心看完！！！

2.1 inference

下面我们来做一个简单的推理测试，我本次的测试模型是qwen2-7b-instruct

1.第一步先点击chat

2.第二部选择你的模型名称

3.粘贴模型路径

2.2 train

首先选择模型和数据还有微调方式

然后选择保存模型的位置
注：如果你的模型比较大，一台显卡无法加载你的模型，你可以选择使用deepspeed单机多卡，DeepSpeed stage选择zero3，如果你一张显卡能够微调，但你有多张显卡的话，这里建议你使用zero2，可以提高接近两倍的训练速度，也就是节省一半的时间

可以看到后台正在训练

前端也可以看到loss在下降，说明模型在正常训练

2.3 train_xinference

当我们训练好模型后，我们可以先测试一下模型的后坏，如果认为模型没问题的话我们再合并模型。

这是我们微调后模型的参数的保存位置

我们进入checkpoint-45，然后复制模型路径，粘贴到检查点路径位置上，然后点击加载模型

2.4 merge_model

我们只需要配置下面箭头指向的几个位置就可以了
注：模型分块不要太大，太大的话会按默认参数，不会按你设置的参数去分块

三、命令形式

3.1 inference

3.1.1 cli-inference

首先进入inference的参数文件配置路径
cd ~/LLaMA-Factory/examples/inference

然后查看llama.yaml文件的内容

然后复制内容，内容如下

model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
template: llama3
再新建一个yaml的文件，把内容换成你的模型路径和template
格式如下
model_name_or_path: 模型路径
template:选择见下图

我还是那Qwen2举例子，下图是我的参数配置

然后运行推理命令

CUDA_VISIBLE_DEVICES=2 llamafactory-cli chat examples/inference/qwen2_7b_instruct.yaml

注：主要执行命令时自己的所在路径！！！！！！

3.1.2 webchat-inference

现在我们来演示一下web推理加载方式

llamafactory-cli webchat examples/inference/qwen2_7b_instruct.yaml

3.2 train

3.2.1 single_train

如果你只要一台显卡，那么就使用单卡训练

首先进入路径，修改单卡训练的文件配置

cd ~/LLaMA-Factory/examples/train_lora

尽量不要在原文件上修改，我们自己创建一个yaml文件，然后按llama3_lora_sft.yaml文件的格式进行修改，这次我们拿glm4-9B-chat举例子
具体参数配置如下，有些参数如果你理解的话也可以自行更改，我这里用的是官方的数据，如果想用自己构建的数据集，需要到data目录下修改dataset_info.json文件

然后启动训练命令

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/train_lora/glm4_lora_sft.yaml