分布式推理#
一些语言模型,包括 DeepSeek V3、DeepSeek R1 等,体积过大,无法适配单台机器上的 GPU,Xinference 支持在多台机器上运行这些模型。
Added in version v1.3.0.
支持的引擎#
现在,Xinference 支持如下引擎在多台 worker 上运行模型。
SGLang (在 v1.3.0 中支持)
vLLM (在 v1.4.1 中支持)
MLX (自 v1.7.1 起支持)目前在分布式模式下并不支持所有模型。目前支持以下几种模型类型。如果你有其他需求,欢迎在 https://github.com/xorbitsai/inference/issues 提交 GitHub issue 来请求支持。
DeepSeek v3 和 R1
Qwen2.5-instruct 及其他具有相同模型架构的模型。
Qwen3 及其他具有相同模型架构的模型。
Qwen3-moe 及其他具有相同模型架构的模型。
使用#
首先,您需要至少 2 个工作节点来支持分布式推理。请参考 在集群中运行 Xinference 以创建包含 supervisor 节点和 worker 节点的 Xinference 集群。
vLLM(v0.11.0+)注意事项:从vLLM v0.11.0版本开始,使用vLLM进行分布式部署需要Xinference >= v1.17.1版本。除原有的 --n-worker 参数设置外,启动模型时还必须同时设置 tensor_parallel_size (将其设置为 GPU数量 ) 和 pipeline_parallel_size=1 参数。
然后,如果您使用的是 Web UI,请在可选配置中选择期望的机器数量作为 worker count;如果您使用的是命令行,启动模型时请添加 --n-worker <机器数量>。模型将相应地在多个工作节点上启动。

使用分布式推理时,在 Web UI 中的 GPU count 或命令行中的 --n-gpu 现在表示每个工作节点的 GPU 数量。