Docker 镜像#

Xinference 在 Dockerhub 和阿里云容器镜像服务中上传了官方镜像。

在 v2.0 版本发生变更: 从 Xinference v2.0 开始，如果要使用cuda版本的镜像，cuda版本最低要达到 CUDA 12.9 。

准备工作#

Xinference 使用 GPU 加速推理，该镜像需要在有 GPU 显卡并且安装 CUDA 的机器上运行。
保证 CUDA 在机器上正确安装。可以使用 nvidia-smi 检查是否正确运行。
对于 CUDA 版本 >= 12.9，Docker 镜像中使用的 CUDA 版本为 12.9。宿主机上的 CUDA 版本需为 12.9 或以上，同时 NVIDIA 驱动版本需为 575 或以上。
请确保已安装 NVIDIA Container Toolkit 。

Docker 镜像#

Xinference 官方镜像已发布在 DockerHub 上的 xprobe/xinference 仓库中。当前可用的标签包括：

nightly-main: 这个镜像会每天从 GitHub main 分支更新制作，不保证稳定可靠。
v<release version>: 这个镜像会在 Xinference 每次发布的时候制作，通常可以认为是稳定可靠的。
latest: 这个镜像会在 Xinference 发布时指向最新的发布版本
对于 CPU 版本，增加 -cpu 后缀，如 nightly-main-cpu。

自定义镜像#

如果需要安装额外的依赖，可以参考 xinference/deploy/docker/Dockerfile 。请确保使用 Dockerfile 制作镜像时在 Xinference 项目的根目录下。比如：

git clone https://github.com/xorbitsai/inference.git
cd inference
docker build --progress=plain -t test -f xinference/deploy/docker/Dockerfile .

使用镜像#

你可以使用如下方式在容器内启动 Xinference，同时将 9997 端口映射到宿主机的 9998 端口，并且指定日志级别为 DEBUG，也可以指定需要的环境变量。

docker run -e XINFERENCE_MODEL_SRC=modelscope -p 9998:9997 --gpus all xprobe/xinference:v<your_version> xinference-local -H 0.0.0.0 --log-level debug

警告

--gpus 必须指定，正如前文描述，镜像必须运行在有 GPU 的机器上，否则会出现错误。
-H 0.0.0.0 也是必须指定的，否则在容器外无法连接到 Xinference 服务。
可以指定多个 -e 选项赋值多个环境变量。

当然，也可以运行容器后，进入容器内手动拉起 Xinference。

备注

对于多张 GPU，确保设置共享内存大小，例如：docker run --shm-size=128g ...

挂载模型目录#

默认情况下，镜像中不包含任何模型文件，使用过程中会在容器内下载模型。如果需要使用已经下载好的模型，需要将宿主机的目录挂载到容器内。这种情况下，需要在运行容器时指定本地卷，并且为 Xinference 配置环境变量。

docker run -v </on/your/host>:</on/the/container> -e XINFERENCE_HOME=</on/the/container> -p 9998:9997 --gpus all xprobe/xinference:v<your_version> xinference-local -H 0.0.0.0

上述命令的原理是将主机上指定的目录挂载到容器中，并设置 XINFERENCE_HOME 环境变量指向容器内的该目录。这样，所有下载的模型文件将存储在您在主机上指定的目录中。您无需担心在 Docker 容器停止时丢失这些文件，下次运行容器时，您可以直接使用现有的模型，无需重复下载。

如果你在宿主机使用的默认路径下载的模型，由于 xinference cache 目录是用的软链的方式存储模型，需要将原文件所在的目录也挂载到容器内。例如你使用 huggingface 和 modelscope 作为模型仓库，那么需要将这两个对应的目录挂载到容器内，一般对应的 cache 目录分别在 <home_path>/.cache/huggingface 和 <home_path>/.cache/modelscope，使用的命令如下：

docker run \
  -v </your/home/path>/.xinference:/root/.xinference \
  -v </your/home/path>/.cache/huggingface:/root/.cache/huggingface \
  -v </your/home/path>/.cache/modelscope:/root/.cache/modelscope \
  -p 9997:9997 \
  --gpus all \
  xprobe/xinference:v<your_version> \
  xinference-local -H 0.0.0.0