开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势（二）

一、术语介绍

** 1.1. Gunicorn**

    一个用于运行Python Web应用程序的HTTP服务器。它是一个基于UNIX的预叉（pre-fork）服务器，专为在高并发环境中运行Python Web应用程序而设计。

** 1.2. Flask**

      一个轻量级的 Python Web 框架，用于构建Web应用程序。它被设计成简单易用且灵活的框架，提供了基本的功能和工具，同时保持了扩展性和可定制性。

** 1.3. Supervisor**

      一个用于进程管理的软件工具，通常用于在 Unix 或类 Unix 系统上监控和管理后台进程。它可以确保被管理的进程在意外退出或崩溃时能够自动重启，以保持系统的稳定性和可靠性。

** 1.4. slb**

     一种网络均衡服务

** 1.5. Postman**

    一个流行的API开发工具和协作平台，用于测试、调试和文档化API。它提供了一个用户友好的界面，使开发者能够轻松地构建和发送HTTP请求，并查看和分析服务器的响应。

二、部署架构

三、构建环境

** 3.1. gunicorn安装**

标签：开源交互

本文转载自: https://blog.csdn.net/qq839019311/article/details/135502875
版权归原作者 charles_vaez 所有，如有侵权，请联系我们删除。