分布式推理#

一些语言模型，包括 DeepSeek V3、DeepSeek R1 等，体积过大，无法适配单台机器上的 GPU，Xinference 支持在多台机器上运行这些模型。

Added in version v1.3.0.

支持的引擎#

现在，Xinference 支持如下引擎在多台 worker 上运行模型。

SGLang （在 v1.3.0 中支持）
vLLM （在 v1.4.1 中支持）
MLX （自 v1.7.1 起支持）目前在分布式模式下并不支持所有模型。目前支持以下几种模型类型。如果你有其他需求，欢迎在 https://github.com/xorbitsai/inference/issues 提交 GitHub issue 来请求支持。
- DeepSeek v3 和 R1
- Qwen2.5-instruct 及其他具有相同模型架构的模型。
- Qwen3 及其他具有相同模型架构的模型。
- Qwen3-moe 及其他具有相同模型架构的模型。

使用#

首先，您需要至少 2 个工作节点来支持分布式推理。请参考在集群中运行 Xinference 以创建包含 supervisor 节点和 worker 节点的 Xinference 集群。

vLLM（v0.11.0+）注意事项：从vLLM v0.11.0版本开始，使用vLLM进行分布式部署需要Xinference >= v1.17.1版本。除原有的 --n-worker 参数设置外，启动模型时还必须同时设置 tensor_parallel_size （将其设置为 GPU数量 ）和 pipeline_parallel_size=1 参数。

然后，如果您使用的是 Web UI，请在可选配置中选择期望的机器数量作为 worker count；如果您使用的是命令行，启动模型时请添加 --n-worker <机器数量>。模型将相应地在多个工作节点上启动。

使用分布式推理时，在 Web UI 中的 GPU count 或命令行中的 --n-gpu 现在表示每个工作节点的 GPU 数量。