0


Gemma谷歌(google)开源大模型微调实战(fintune gemma-2b)

Gemma-SFT

Gemma-SFT(谷歌, Google), gemma-2b/gemma-7b微调(transformers)/LORA(peft)/推理

项目地址

  • https://github.com/yongzhuo/gemma-sft
  • 全部weights要用fp32/tf32, 使用fp16微调十几或几十的步数后大概率loss=nan;(即便layer-norm是fp32也不行, LLaMA就没有这个问题, 原因暂时未知)

备注

  1. 1. 非常重要: 全部weights要用fp32/tf32, 使用fp16微调十几或几十的步数后大概率loss=nan;(即便layer-normfp32也不行, LLaMA就没有这个问题, 原因暂时未知)2. transformers需要4.38及以上;3. gemma词典大小为25w,多语言版本,包含繁/简体;4. gemma网络架构同Llama, gemma-2b18层网络, gemma-7b28层网络;5. prompt:5.1 标准格式为:
  2. bos +input+ eos + bos + output + eos
  3. 5.2 prompt格式为:<start_of_turn>user
  4. input<end_of_turn><start_of_turn>model
  5. output<end_of_turn>6 微调输入输出:
  6. 输入:"<start_of_turn>user\n{问题}<end_of_turn>\n"
  7. 输出:"<start_of_turn>model\n{答案}<end_of_turn>"7 推理输入输出(assistant\n放置位置不同):
  8. 输入:"<start_of_turn>user\n{问题}<end_of_turn>\n<start_of_turn>model\n"
  9. 输出:"{答案}<end_of_turn>"8. 网络各层名称
  10. ('model.embed_tokens.weight', torch.bfloat16,True)......('model.layers.17.self_attn.q_proj.weight', torch.bfloat16,True)('model.layers.17.self_attn.k_proj.weight', torch.bfloat16,True)('model.layers.17.self_attn.v_proj.weight', torch.bfloat16,True)('model.layers.17.self_attn.o_proj.weight', torch.bfloat16,True)('model.layers.17.mlp.gate_proj.weight', torch.bfloat16,True)('model.layers.17.mlp.up_proj.weight', torch.bfloat16,True)('model.layers.17.mlp.down_proj.weight', torch.bfloat16,True)('model.layers.17.input_layernorm.weight', torch.bfloat16,True)('model.layers.17.post_attention_layernorm.weight', torch.bfloat16,True)......('model.norm.weight', torch.bfloat16,True)9. RuntimeError: unscale_() has already been called on this optimizer since the last update().
  11. 微调语料太少导致的

环境配置

  1. transformers>=4.38.1
  2. torch>=1.13.1
  3. safetensors>=0.4.1
  4. accelerate==0.27.1
  5. fsspec==2023.9.2
  6. rouge==1.0.1
  7. nltk==3.6.6
  8. peft>=0.2.0
  9. numpy
  10. tqdm

微调

  1. 地址: gemma_sft/ft_gemma
  2. 配置: gemma_sft/ft_gemma/config.py
  3. 训练: python train.py
  4. 推理: python predict.py
  5. 验证: python evaluation.py
  6. 接口: python post_api.py

数据集-中文

参考/感谢

微调日志-advgen

在这里插入图片描述

推理日志-advgen

  1. 请输入:
  2. 类型#上衣*颜色#黑色*颜色#紫色*风格#性感*图案#字母*图案#文字*图案#线条*图案#刺绣*衣样式#卫衣*衣长#短款*衣袖型#落肩袖*衣款式#连帽
  3. 请稍等...
  4. ################################################################################################################################
  5. {'instruction': '类型#上衣*颜色#黑色*颜色#紫色*风格#性感*图案#字母*图案#文字*图案#线条*图案#刺绣*衣样式#卫衣*衣长#短款*衣袖型#落肩袖*衣款式#连帽', 'input': '', 'output': ''}
  6. tensor([[ 2, 23055, 235345, 235502, 236524, 235287, 43972, 235345, 57988,
  7. 235287, 43972, 235345, 124945, 235287, 60525, 235345, 135994, 235287,
  8. 182148, 235345, 125156, 235287, 182148, 235345, 25047, 235287, 182148,
  9. 235345, 179958, 235287, 182148, 235345, 237164, 240872, 235287, 236524,
  10. 95243, 235345, 237587, 236524, 235287, 236524, 236045, 235345, 236809,
  11. 236604, 235287, 236524, 237785, 235954, 235345, 236362, 238047, 237785,
  12. 235287, 236524, 166242, 235345, 236557, 238229]])
  13. 一款个性吸睛的连帽服務卫衣,黑色系底色,增添了甜美小性感;经典的落肩短款版型,修饰出纤细的颈脖线条;个性时尚的连帽设计,搭配字母刺绣装饰,增添了甜美少女感;肩部的字母刺绣装饰,增添了时尚感,使整体更具特色;紫色的刺绣设计,丰富了视觉感,使整体更具个性。<eos>
  14. 请输入:
  15. 类型#上衣*风格#街头*图案#创意*衣样式#卫衣
  16. 请稍等...
  17. ################################################################################################################################
  18. {'instruction': '类型#上衣*风格#街头*图案#创意*衣样式#卫衣', 'input': '', 'output': ''}
  19. tensor([[ 2, 23055, 235345, 235502, 236524, 235287, 60525, 235345, 218295,
  20. 235287, 182148, 235345, 50259, 235287, 236524, 95243, 235345, 237587,
  21. 236524]])
  22. 这一款卫衣采用经典的领口设计,不拘一格的设计,展现出街头风。领口的设计,不仅能够修饰脸型,还能够打造出精致的小脸,而且还能够起到遮挡口型的效果,让脸型更加小巧。领口处采用了创意的圆环装饰,让整个卫衣更加丰富,视觉上更加亮眼。卫衣采用宽大的版型设计,不挑人穿,即使是身材不那么好的人也能轻松驾驭。<eos>
  23. 请输入:

口的设计,不仅能够修饰脸型,还能够打造出精致的小脸,而且还能够起到遮挡口型的效果,让脸型更加小巧。领口处采用了创意的圆环装饰,让整个卫衣更加丰富,视觉上更加亮眼。卫衣采用宽大的版型设计,不挑人穿,即使是身材不那么好的人也能轻松驾驭。
请输入:

标签: Gemma 大模型 微调

本文转载自: https://blog.csdn.net/rensihui/article/details/136301557
版权归原作者 Macropodus 所有, 如有侵权,请联系我们删除。

“Gemma谷歌(google)开源大模型微调实战(fintune gemma-2b)”的评论:

还没有评论