入门指南# 安装 Transformers 引擎 vLLM 引擎 Llama.cpp 引擎 SGLang 引擎 使用 本地运行 Xinference 集群中部署 Xinference 使用 Docker 部署 Xinference 在 Kubernetes 环境中运行 Xinference 更多 日志 日志等级 日志文件 Docker 镜像 准备工作 Docker 镜像 自定义镜像 使用镜像 挂载模型目录 故障排除 没有 huggingface 仓库权限 英伟达驱动和 PyTorch 版本不匹配 外部系统无法通过 <IP>:9997 访问 Xinference 服务 启动内置模型需要很长时间,模型有时下载失败 使用官方 Docker 映像时,RayWorkerVllm 因 OOM 而死亡,导致模型无法加载 加载 LLM 模型时提示缺失 model_engine 参数 环境变量 XINFERENCE_ENDPOINT XINFERENCE_MODEL_SRC XINFERENCE_HOME XINFERENCE_HEALTH_CHECK_ATTEMPTS XINFERENCE_HEALTH_CHECK_INTERVAL XINFERENCE_DISABLE_HEALTH_CHECK XINFERENCE_DISABLE_VLLM