OpenLLM¶

注意

仍需为Qwen3更新。

OpenLLM 允许开发者通过一个命令运行不同大小的 Qwen2.5 模型，提供 OpenAI 兼容的 API。它具有内置的聊天 UI，先进的推理后端，以及简化的工作流程来使用 Qwen2.5 创建企业级云部署。访问 OpenLLM 仓库了解更多信息。

安装¶

使用 pip 安装 OpenLLM。

pip install openllm

验证安装并显示帮助信息：

openllm --help

快速开始¶

在运行任何 Qwen2.5 模型之前，确保您的模型仓库与 OpenLLM 的最新官方仓库同步。

openllm repo update

列出支持的 Qwen2.5 模型：

openllm model list --tag qwen2.5

结果还会显示所需的 GPU 资源和支持的平台：

model    version                repo     required GPU RAM    platforms
-------  ---------------------  -------  ------------------  -----------
qwen2.5  qwen2.5:0.5b           default  12G                 linux
         qwen2.5:1.5b           default  12G                 linux
         qwen2.5:3b             default  12G                 linux
         qwen2.5:7b             default  24G                 linux
         qwen2.5:14b            default  80G                 linux
         qwen2.5:14b-ggml-q4    default                      macos
         qwen2.5:14b-ggml-q8    default                      macos
         qwen2.5:32b            default  80G                 linux
         qwen2.5:32b-ggml-fp16  default                      macos
         qwen2.5:72b            default  80Gx2               linux
         qwen2.5:72b-ggml-q4    default                      macos

要使用其中一个模型来启动服务器，请使用 openllm serve 命令，例如：

openllm serve qwen2.5:7b

默认情况下，服务器启动在 http://localhost:3000/。

与模型服务器交互¶

服务器运行后，可以通过以下方式调用其 API：

CURL

通过 CURL 向其 /generate 端点发送 HTTP 请求：

curl -X 'POST' \
   'http://localhost:3000/api/generate' \
   -H 'accept: text/event-stream' \
   -H 'Content-Type: application/json' \
   -d '{
   "prompt": "Tell me something about large language models.",
   "model": "Qwen/Qwen2.5-7B-Instruct",
   "max_tokens": 2048,
   "stop": null
}'

Python 客户端

使用支持 OpenAI API 协议的框架和工具来调用。例如：

from openai import OpenAI

client = OpenAI(base_url='http://localhost:3000/v1', api_key='na')

# Use the following func to get the available models
# model_list = client.models.list()
# print(model_list)

chat_completion = client.chat.completions.create(
   model="Qwen/Qwen2.5-7B-Instruct",
   messages=[
      {
            "role": "user",
            "content": "Tell me something about large language models."
      }
   ],
   stream=True,
)
for chunk in chat_completion:
   print(chunk.choices[0].delta.content or "", end="")

聊天 UI

OpenLLM 为 LLM 服务器提供的聊天 UI 位于 /chat 端点，地址为 http://localhost:3000/chat。

模型仓库¶

OpenLLM 中的模型仓库表示可用的 LLM 目录。您可以为 OpenLLM 添加自定义的 Qwen2.5 模型仓库，以满足您的特定需求。请参阅我们的文档了解详细信息。