就在昨天,Meta发布了 Llama 3.1 之后的不久,Mistral AI 正式宣布发布新一代旗舰机型 Mistral Large 2。与前代产品相比,Mistral Large 2 在代码生成、数学和推理方面的能力大大增强。它还提供了更强大的多语言支持和高级函数调用功能。但不仅如此,在HF上居然出现了
mistralai/Mistral-Large-Instruct-2407
,闭源的大模型居然也开始开源了,而且支持到24年7月的知识库。原本以为 Mistral AI 接受了 Microsoft 的投资赞助会像 OpenAI 一样有奶便是娘,现在看来,我可能要 Crush 他们了。
Mistral Large 2
Mistral Large 2 有一个 128k 的上下文窗口,支持数十种语言,包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语,以及 80 多种编码语言,包括 Python、Java、C、C++、JavaScript 和 Bash。
Mistral Large 2 专为单节点推理而设计,并考虑到了长上下文应用–其规模达 1,230 亿个参数,可在单节点上以高吞吐量运行。我们根据 Mistral Research License 发布 Mistral Large 2,允许为研究和非商业用途使用和修改。如果需要自行部署 Mistral Large 2,则必须联系我们获取 Mistral 商业许可证。
总体性能
Mistral Large 2 在评估指标的性能/服务成本方面开创了新的前沿。特别是在 MMLU 上,预训练版本达到了 84.0% 的准确率,在开放模型的性能/成本帕累托前沿上确立了一个新的点。
代码与推理
根据 Codestral 22B 和 Codestral Mamba 的经验,我们对 Mistral Large 2 进行了大量代码训练。Mistral Large 2 的性能大大优于之前的 Mistral Large,与 GPT-4o、Claude 3 Opus 和 Llama 3 405B 等领先模型不相上下。
在提高模型的推理能力方面也投入了大量精力。培训期间的一个重点领域是尽量减少模型产生 "幻觉 "或生成听起来似乎合理但实际上不正确或不相关信息的倾向。为此,我们对模型进行了微调,使其在作出反应时更加谨慎,更有辨别力,确保提供可靠和准确的输出。
此外,新的 Mistral Large 2 还经过训练,能够在无法找到解决方案或没有足够信息提供可靠答案时进行确认。这种对准确性的承诺体现在模型在流行的数学基准测试中表现的提高上,证明了其推理和解决问题能力的增强:
代码生成基准的性能精度(所有模型均通过相同的评估管道进行基准测试)
在 MultiPL-E 上的性能精度(除 "纸质 "行外,所有模型均通过相同的评估管道进行基准测试)
在 GSM8K(8 发)和 MATH(0 发,无 CoT)生成基准上的性能精度(所有模型均通过相同的评估管道进行基准测试)
指令跟随和对齐
我们大幅改进了 Mistral Large 2 的指令跟踪和对话能力。新版 Mistral Large 2 在遵循精确指令和处理长时间多轮对话方面表现尤为出色。下面我们将报告在 MT-Bench、Wild Bench 和 Arena Hard 基准测试中的表现:
一般对齐基准的性能(所有模型均通过相同的评估管道进行基准测试)
在某些基准测试中,生成冗长的响应往往会提高得分。然而,在许多商业应用中,简洁是最重要的–简短的模型生成有助于更快地进行交互,并且在推理中更具成本效益。因此,我们花费了大量精力来确保模型代尽可能简洁明了。下图显示了 MT Bench 基准测试中不同模型生成问题的平均长度:
语言多样性
如今,大部分业务用例都涉及多语言文档的处理。虽然大多数模型都以英语为中心,但新的 Mistral Large 2 却在大量多语言数据上进行了训练。特别是,它在英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、俄语、中文、日语、韩语、阿拉伯语和印地语方面表现出色。以下是 Mistral Large 2 在多语言 MMLU 基准测试中的性能结果,与之前的 Mistral Large、Llama 3.1 模型以及 Cohere 的 Command R+ 进行了比较。
工具使用和函数调用
Mistral Large 2 配备了增强的函数调用和检索技能,并接受了熟练执行并行和顺序函数调用的培训,使其能够成为复杂业务应用程序的动力引擎。
Mistral-Large-Instruct-2407
Mistral-Large-Instruct-2407 是一种先进的密集型大型语言模型(LLM),包含 123B 个参数,具有最先进的推理、知识和编码能力。
主要功能
- 多语言设计:支持数十种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。
- 精通编码:接受过 80 多种编码语言的培训,如 Python、Java、C、C++、Javacsript 和 Bash。还接受过 Swift 和 Fortran 等特定语言的培训。
- 以代理为中心:一流的代理能力,具有本地函数调用和 JSON 输出功能。
- 高级推理:最先进的数学和推理能力。
- Mistral 研究许可证:允许为研究和非商业用途使用和修改。
- 大型上下文:128k 大型上下文窗口。
指标
基础预训练基准
BenchmarkScoreMMLU84.0%
基础预训练多语言基准 (MMLU)
基准得分法语82.8%德语81.6%西班牙语82.7%意大利语82.7%荷兰语80.7%葡萄牙语81.6%俄语79.0%朝鲜语60.1%日语78.8%中文74.8%
教学基准
BenchmarkScoreMT Bench8.63Wild Bench56.3Arena Hard73.2
代码与推理基准
BenchmarkScoreHuman Eval92%Human Eval Plus87%MBPP Base80%MBPP Plus69%
数学基准
BenchmarkScoreGSM8K93%Math Instruct (0-shot, no CoT)70%Math Instruct (0-shot, CoT)71.5%
推理
安装 mistral推理工具
pip install mistral_inference
下载
from huggingface_hub import snapshot_download
from pathlib import Path
mistral_models_path = Path.home().joinpath('mistral_models','Large')
mistral_models_path.mkdir(parents=True, exist_ok=True)
snapshot_download(repo_id="mistralai/Mistral-Large-2407", allow_patterns=["params.json","consolidated-*.safetensors","tokenizer.model.v3"], local_dir=mistral_models_path)
聊天
from mistral_inference.transformer import Transformer
from mistral_inference.generate import generate
from mistral_common.tokens.tokenizers.mistral import MistralTokenizer
from mistral_common.protocol.instruct.messages import UserMessage
from mistral_common.protocol.instruct.request import ChatCompletionRequest
tokenizer = MistralTokenizer.from_file(f"{mistral_models_path}/tokenizer.model.v3")
model = Transformer.from_folder(mistral_models_path)
prompt ="How expensive would it be to ask a window cleaner to clean all windows in Paris. Make a reasonable guess in US Dollar."
completion_request = ChatCompletionRequest(messages=[UserMessage(content=prompt)])
tokens = tokenizer.encode_chat_completion(completion_request).tokens
out_tokens, _ = generate([tokens], model, max_tokens=64, temperature=0.7, eos_id=tokenizer.instruct_tokenizer.tokenizer.eos_id)
result = tokenizer.decode(out_tokens[0])print(result)
相关文章
https://mistral.ai/news/mistral-large-2407/
https://docs.mistral.ai/getting-started/models/
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!
版权归原作者 DisonTangor 所有, 如有侵权,请联系我们删除。