模型加载指南#
本文档旨在提供模型加载的功能说明。
副本#
副本用来指定模型加载的实例份数。比如,你有两张 GPU,每张卡可以放下模型的一个副本,你可以设置副本数为 2。这样,两个完全相同的模型实例将分布在这两张 GPU 上。Xinference 会自动进行负载均衡,确保请求均匀分配到多张卡上。用户看到的仍是一个模型,这大大提升了整体资源利用率。
设置环境变量#
Added in version v1.8.1.
有时我们希望在运行时为特定模型指定环境变量。从 v1.8.1 开始,Xinference 提供了单独配置环境变量的功能,无需在启动 Xinference 前设置。
针对 Web UI。

命令行使用时,使用 --env 指定环境变量。
示例用法:
xinference launch xxx --env A 0 --env B 1
以 vLLM 为例,它有 V1 和 V0 两个版本,默认会自动判定使用哪个版本。如果想在加载模型时强制通过设置 VLLM_USE_V1=0 来使用 V0,可以指定该环境变量。
配置模型虚拟空间#
Added in version v1.8.1.
对于这部分,请参考 开关虚拟空间和定制依赖。