入门指南# 安装 Transformers 引擎 vLLM 引擎 Llama.cpp 引擎 SGLang 引擎 MLX 引擎 其他平台 使用 本地运行 Xinference 集群中部署 Xinference 使用 Docker 部署 Xinference 更多 日志 日志等级 日志文件 Docker 镜像 准备工作 Docker 镜像 自定义镜像 使用镜像 挂载模型目录 在 Kubernetes 集群中安装 Xinference 基于原生 Helm 的方式 基于第三方 KubeBlocks 的方式 故障排除 没有 huggingface 仓库权限 英伟达驱动和 PyTorch 版本不匹配 外部系统无法通过 <IP>:9997 访问 Xinference 服务 启动内置模型需要很长时间,模型有时下载失败 使用官方 Docker 映像时,RayWorkerVllm 因 OOM 而死亡,导致模型无法加载 加载 LLM 模型时提示缺失 model_engine 参数 环境变量 XINFERENCE_ENDPOINT XINFERENCE_MODEL_SRC XINFERENCE_HOME XINFERENCE_HEALTH_CHECK_ATTEMPTS XINFERENCE_HEALTH_CHECK_INTERVAL XINFERENCE_DISABLE_HEALTH_CHECK XINFERENCE_DISABLE_METRICS