0


开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现离线推理-Tools助力(二)

一、前言

在大语言模型推理中使用**工具**可以增强模型的能力和准确性,使其能够执行特定任务、获取实时信息、提高效率并降低计算负担,同时改善用户交互体验和灵活性,从而显著提升模型的实用性和性能。

二、术语

2.1. vLLM

vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。

2.2. Qwen2.5

Qwen2.5系列模型都在最新的大规模数据集上进行了预训练,该数据集包含多达 18T tokens。相较于 Qwen2,Qwen2.5 获得了显著更多的知识(MMLU:85+),并在编程能力(HumanEval 85+)和数学能力(MATH 80+)方面有了大幅提升。

此外,新模型在指令执行、生成长文本(超过 8K 标记)、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。 Qwen2.5 模

本文转载自: https://blog.csdn.net/qq839019311/article/details/142985349
版权归原作者 开源技术探险家 所有, 如有侵权,请联系我们删除。

“开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现离线推理-Tools助力(二)”的评论:

还没有评论