0


开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(二)

一、术语介绍

** 1.1. Gunicorn**

    一个用于运行Python Web应用程序的HTTP服务器。它是一个基于UNIX的预叉(pre-fork)服务器,专为在高并发环境中运行Python Web应用程序而设计。

** 1.2. Flask**

      一个轻量级的 Python Web 框架,用于构建Web应用程序。它被设计成简单易用且灵活的框架,提供了基本的功能和工具,同时保持了扩展性和可定制性。

** 1.3. Supervisor**

      一个用于进程管理的软件工具,通常用于在 Unix 或类 Unix 系统上监控和管理后台进程。它可以确保被管理的进程在意外退出或崩溃时能够自动重启,以保持系统的稳定性和可靠性。

** 1.4. slb**

     一种网络均衡服务

** 1.5. Postman**

    一个流行的API开发工具和协作平台,用于测试、调试和文档化API。它提供了一个用户友好的界面,使开发者能够轻松地构建和发送HTTP请求,并查看和分析服务器的响应。

二、部署架构


三、构建环境

** 3.1. gunicorn安装**

标签: 开源 交互

本文转载自: https://blog.csdn.net/qq839019311/article/details/135502875
版权归原作者 charles_vaez 所有, 如有侵权,请联系我们删除。

“开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势(二)”的评论:

还没有评论