环境变量#

XINFERENCE_ENDPOINT#

Xinference 的服务地址,用来与 Xinference 连接。默认地址是 http://127.0.0.1:9997,可以在日志中获得这个地址。

XINFERENCE_MODEL_SRC#

配置模型下载仓库。默认下载源是 "huggingface",也可以设置为 "modelscope" 作为下载源。

XINFERENCE_HOME#

Xinference 默认使用 <HOME>/.xinference 作为默认目录来存储模型以及日志等必要的文件。其中 <HOME> 是当前用户的主目录。可以通过配置这个环境变量来修改默认目录。

XINFERENCE_HEALTH_CHECK_FAILURE_THRESHOLD#

Xinference启动时允许的最大健康检查失败次数。默认值为5。

XINFERENCE_HEALTH_CHECK_INTERVAL#

Xinference启动时的健康检查间隔(秒)。默认值为5。

XINFERENCE_HEALTH_CHECK_TIMEOUT#

Xinference启动时的健康检查超时时间(秒)。默认值为10。

XINFERENCE_DISABLE_HEALTH_CHECK#

在满足条件时,Xinference 会自动汇报worker健康状况,设置改环境变量为 1可以禁用健康检查。

XINFERENCE_DISABLE_METRICS#

Xinference 会默认在 supervisor 和 worker 上启用 metrics exporter。设置环境变量为 1可以在 supervisor 上禁用 /metrics 端点,并在 worker 上禁用 HTTP 服务(仅提供 /metrics 端点)

XINFERENCE_DOWNLOAD_MAX_ATTEMPTS#

模型文件的最大下载重试次数。默认值为3。

XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE#

通过指定目标图像尺寸(例如 1024*1024 )为文本转图像模型启用连续批处理。默认未设置。

XINFERENCE_SSE_PING_ATTEMPTS_SECONDS#

服务器发送事件保持活动状态的ping间隔(秒)。默认值为600。

XINFERENCE_MAX_TOKENS#

请求的全局最大tokens限制覆盖。默认值为未设置。

XINFERENCE_ALLOWED_IPS#

限制访问特定IP地址或CIDR地址块。默认未设置(无限制)。

XINFERENCE_BATCH_SIZE#

启用批处理时服务器使用的默认批处理大小。默认值为32。

XINFERENCE_BATCH_INTERVAL#

默认批处理间隔(秒)。默认值为0.003。

XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU#

是否允许在单个GPU上创建多个副本。默认值为1 (启用)。

XINFERENCE_LAUNCH_STRATEGY#

副本的GPU分配策略。默认值为 IDLE_FIRST_LAUNCH_STRATEGY

XINFERENCE_ENABLE_VIRTUAL_ENV#

全局启用模型虚拟环境。默认值为1(启用,自v2.0版本生效)

XINFERENCE_VIRTUAL_ENV_SKIP_INSTALLED#

创建虚拟环境时跳过系统site-packages中已存在的包。默认值为1。

XINFERENCE_CSG_TOKEN#

CSGHub模型源的认证令牌。默认值为未设置。

XINFERENCE_CSG_ENDPOINT#

CSGHub 模型源端点。默认值为 https://hub-stg.opencsg.com/

XINFERENCE_QWEN3_RERANK_TEMPLATE#

Enable template for Qwen3 rerank model family (0.6B, 4B, 8B,etc) globally. Default value is 1.