0


开源模型应用落地-glm模型小试-glm-4-9b-chat-Gradio集成(三)

一、前言

  1. GLM-4是智谱AI团队于2024116日发布的基座大模型,旨在自动理解和规划用户的复杂指令,并能调用网页浏览器。其功能包括数据分析、图表创建、PPT生成等,支持128K的上下文窗口,使其在长文本处理和精度召回方面表现优异,且在中文对齐能力上超过GPT-4。与之前的GLM系列产品相比,GLM-4在各项性能上提高了60%,并且在指令跟随和多模态功能上有显著强化,适合于多种应用场景。尽管在某些领域仍逊于国际一流模型,GLM-4的中文处理能力使其在国内大模型中占据领先地位。该模型的研发历程自2020年始,经过多次迭代和改进,最终构建出这一高性能的AI系统。
  2. 在开源模型应用落地-glm模型小试-glm-4-9b-chat-快速体验(一)已经掌握了**glm-4-9b-chat**的基本入门。
  3. 在开源模型应用落地-glm模型小试-glm-4-9b-chat-批量推理(二)已经掌握了**glm-4-9b-chat**的批量推理。
  4. 本篇将介绍如何集成**Gradio**进行页面交互。

二、术语

**2.1.**GLM-4-9B

  1. 是智谱 AI 推出的一个开源预训练模型,属于 GLM-4 系列。它于 2024 6 6 日发布,专为满足高效能语言理解和生成任务而设计,并支持最高 1M(约两百万字)的上下文输入。该模型拥有更强的基础能力,支持26种语言,并且在多模态能力上首次实现了显著进展。

GLM-4-9B的基础能力包括:

  • 中英文综合性能提升 40%,在特别的中文对齐能力、指令遵从和工程代码等任务中显著增强

  • 较 Llama 3 8B 的性能提升,尤其在数学问题解决和代码编写等复杂任务中表现优越

  • 增强的函数调用能力,提升了 40% 的性能

  • 支持多轮对话,还支持网页浏览、代码执行、自定义工具调用等高级功能,能够快速处理大量信息并给出高质量的回答

**2.2.**GLM-4-9B-Chat

  1. 是智谱 AI GLM-4-9B 系列中推出的对话版本模型。它设计用于处理多轮对话,并具有一些高级功能,使其在自然语言处理任务中更加高效和灵活。

**2.3.**Gradio

  1. 是一个用于构建交互式界面的Python库。它使得在Python中创建快速原型、构建和共享机器学习模型变得更加容易。
  2. Gradio的主要功能是为机器学习模型提供一个即时的Web界面,使用户能够与模型进行交互,输入数据并查看结果,而无需编写复杂的前端代码。它提供了一个简单的API,可以将输入和输出绑定到模型的函数或方法,并自动生成用户界面。

三、前置条件

3.1.基础环境及前置条件

** 1. 操作系统:centos7**

** 2. NVIDIA Tesla V100 32GB CUDA Version: 12.2 **

** 3.最低硬件要求**

3.2.下载模型

huggingface:

https://huggingface.co/THUDM/glm-4-9b-chat/tree/main

ModelScope:

魔搭社区

使用git-lfs方式下载示例:

3.3.创建虚拟环境

  1. conda create --name glm4 python=3.10
  2. conda activate glm4

3.4.安装依赖库

  1. pip install torch>=2.5.0
  2. pip install torchvision>=0.20.0
  3. pip install transformers>=4.46.0
  4. pip install huggingface-hub>=0.25.1
  5. pip install sentencepiece>=0.2.0
  6. pip install jinja2>=3.1.4
  7. pip install pydantic>=2.9.2
  8. pip install timm>=1.0.9
  9. pip install tiktoken>=0.7.0
  10. pip install numpy==1.26.4
  11. pip install accelerate>=1.0.1
  12. pip install sentence_transformers>=3.1.1
  13. pip install gradio==4.44.1
  14. pip install openai>=1.51.0
  15. pip install einops>=0.8.0
  16. pip install pillow>=10.4.0
  17. pip install sse-starlette>=2.1.3
  18. pip install bitsandbytes>=0.43.3

四、技术实现

4.1.集成Gradio

  1. # -*- coding: utf-8 -*-
  2. from threading import Thread
  3. import gradio as gr
  4. import torch
  5. from transformers import (
  6. AutoModelForCausalLM,
  7. AutoTokenizer,
  8. StoppingCriteria,
  9. StoppingCriteriaList,
  10. TextIteratorStreamer
  11. )
  12. modelPath = "/data/model/glm-4-9b-chat"
  13. def loadTokenizer():
  14. tokenizer = AutoTokenizer.from_pretrained(modelPath, trust_remote_code=True)
  15. return tokenizer
  16. def loadModel():
  17. model = AutoModelForCausalLM.from_pretrained(
  18. modelPath,
  19. torch_dtype=torch.float16,
  20. trust_remote_code=True,
  21. device_map="auto").eval()
  22. return model
  23. class StopOnTokens(StoppingCriteria):
  24. def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
  25. stop_ids = model.config.eos_token_id
  26. for stop_id in stop_ids:
  27. if input_ids[0][-1] == stop_id:
  28. return True
  29. return False
  30. def predict(history, prompt, max_length, top_p, temperature):
  31. stop = StopOnTokens()
  32. messages = []
  33. if prompt:
  34. messages.append({"role": "system", "content": prompt})
  35. for idx, (user_msg, model_msg) in enumerate(history):
  36. if prompt and idx == 0:
  37. continue
  38. if idx == len(history) - 1 and not model_msg:
  39. messages.append({"role": "user", "content": user_msg})
  40. break
  41. if user_msg:
  42. messages.append({"role": "user", "content": user_msg})
  43. if model_msg:
  44. messages.append({"role": "assistant", "content": model_msg})
  45. model_inputs = tokenizer.apply_chat_template(messages,
  46. add_generation_prompt=True,
  47. tokenize=True,
  48. return_tensors="pt").to(next(model.parameters()).device)
  49. streamer = TextIteratorStreamer(tokenizer, timeout=60, skip_prompt=True, skip_special_tokens=True)
  50. generate_kwargs = {
  51. "input_ids": model_inputs,
  52. "streamer": streamer,
  53. "max_new_tokens": max_length,
  54. "do_sample": True,
  55. "top_p": top_p,
  56. "temperature": temperature,
  57. "stopping_criteria": StoppingCriteriaList([stop]),
  58. "repetition_penalty": 1.2,
  59. "eos_token_id": model.config.eos_token_id,
  60. }
  61. t = Thread(target=model.generate, kwargs=generate_kwargs)
  62. t.start()
  63. for new_token in streamer:
  64. if new_token:
  65. history[-1][1] += new_token
  66. yield history
  67. with gr.Blocks() as demo:
  68. gr.HTML("""<h1 align="center">GLM-4-9B-CHAT DEMO</h1>""")
  69. chatbot = gr.Chatbot()
  70. with gr.Row():
  71. with gr.Column(scale=3):
  72. with gr.Column(scale=12):
  73. user_input = gr.Textbox(show_label=False, placeholder="Input...", lines=10, container=False)
  74. with gr.Column(min_width=32, scale=1):
  75. submitBtn = gr.Button("Submit")
  76. with gr.Column(scale=1):
  77. prompt_input = gr.Textbox(show_label=False, placeholder="Prompt", lines=10, container=False)
  78. pBtn = gr.Button("Set Prompt")
  79. with gr.Column(scale=1):
  80. emptyBtn = gr.Button("Clear History")
  81. max_length = gr.Slider(0, 32768, value=8192, step=1.0, label="Maximum length", interactive=True)
  82. top_p = gr.Slider(0, 1, value=0.8, step=0.01, label="Top P", interactive=True)
  83. temperature = gr.Slider(0.01, 1, value=0.6, step=0.01, label="Temperature", interactive=True)
  84. def user(query, history):
  85. return "", history + [[query, ""]]
  86. def set_prompt(prompt_text):
  87. return [[prompt_text, "成功设置prompt"]]
  88. pBtn.click(set_prompt, inputs=[prompt_input], outputs=chatbot)
  89. submitBtn.click(user, [user_input, chatbot], [user_input, chatbot], queue=False).then(
  90. predict, [chatbot, prompt_input, max_length, top_p, temperature], chatbot
  91. )
  92. emptyBtn.click(lambda: (None, None), None, [chatbot, prompt_input], queue=False)
  93. if __name__ == '__main__':
  94. model = loadModel()
  95. tokenizer = loadTokenizer()
  96. demo.queue()
  97. demo.launch(server_name="0.0.0.0", server_port=7860, auth=("zhangsan", '123456'), width='70%')

启动结果:

调用结果:

一. 访问页面,账/密为上述代码示例中的zhangsan/123456

二.测试推理效果


五、附带说明

5.1.问题一: undefined symbol: __nvJitLinkComplete_12_4, version libnvJitLink.so.12

解决:

export LD_LIBRARY_PATH=/usr/local/miniconda3/envs/glm4/lib/python3.10/site-packages/nvidia/nvjitlink/lib:$LD_LIBRARY_PATH

5.2.问题二:Gradio界面无法打开

  1. 服务监听地址不能是127.0.0.1

  1. 检查服务器的安全策略或防火墙配置

服务端:lsof -i:8989 查看端口是否正常监听

客户端:telnet ip 8989 查看是否可以正常连接


本文转载自: https://blog.csdn.net/qq839019311/article/details/143508074
版权归原作者 开源技术探险家 所有, 如有侵权,请联系我们删除。

“开源模型应用落地-glm模型小试-glm-4-9b-chat-Gradio集成(三)”的评论:

还没有评论