使用Xinference部署Qwen及向量化模型

通过docker部署xinference，对外暴漏openai兼容的api，供外部软件使用。硬件：GTX2080 TI 22G 模型：qwen1.5-chat-13b-qint4 + bge-base-zh-v1.5 桌面软件：Chatbox 最终实现了qwen的部署，且通过openai的标准API接口，实现了Chatbox接入了私有模型。 xinference docker-compose.yml配置：最终效果

2024-03-06 阅读全文