环境变量#
XINFERENCE_ENDPOINT#
Xinference 的服务地址,用来与 Xinference 连接。默认地址是 http://127.0.0.1:9997,可以在日志中获得这个地址。
XINFERENCE_MODEL_SRC#
配置模型下载仓库。默认下载源是 "huggingface",也可以设置为 "modelscope" 作为下载源。
XINFERENCE_HOME#
Xinference 默认使用 <HOME>/.xinference 作为默认目录来存储模型以及日志等必要的文件。其中 <HOME> 是当前用户的主目录。可以通过配置这个环境变量来修改默认目录。
XINFERENCE_HEALTH_CHECK_FAILURE_THRESHOLD#
Xinference启动时允许的最大健康检查失败次数。默认值为5。
XINFERENCE_HEALTH_CHECK_INTERVAL#
Xinference启动时的健康检查间隔(秒)。默认值为5。
XINFERENCE_HEALTH_CHECK_TIMEOUT#
Xinference启动时的健康检查超时时间(秒)。默认值为10。
XINFERENCE_DISABLE_HEALTH_CHECK#
在满足条件时,Xinference 会自动汇报worker健康状况,设置改环境变量为 1可以禁用健康检查。
XINFERENCE_DISABLE_METRICS#
Xinference 会默认在 supervisor 和 worker 上启用 metrics exporter。设置环境变量为 1可以在 supervisor 上禁用 /metrics 端点,并在 worker 上禁用 HTTP 服务(仅提供 /metrics 端点)
XINFERENCE_DOWNLOAD_MAX_ATTEMPTS#
模型文件的最大下载重试次数。默认值为3。
XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE#
通过指定目标图像尺寸(例如 1024*1024 )为文本转图像模型启用连续批处理。默认未设置。
XINFERENCE_SSE_PING_ATTEMPTS_SECONDS#
服务器发送事件保持活动状态的ping间隔(秒)。默认值为600。
XINFERENCE_MAX_TOKENS#
请求的全局最大tokens限制覆盖。默认值为未设置。
XINFERENCE_ALLOWED_IPS#
限制访问特定IP地址或CIDR地址块。默认未设置(无限制)。
XINFERENCE_BATCH_SIZE#
启用批处理时服务器使用的默认批处理大小。默认值为32。
XINFERENCE_BATCH_INTERVAL#
默认批处理间隔(秒)。默认值为0.003。
XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU#
是否允许在单个GPU上创建多个副本。默认值为1 (启用)。
XINFERENCE_LAUNCH_STRATEGY#
副本的GPU分配策略。默认值为 IDLE_FIRST_LAUNCH_STRATEGY 。
XINFERENCE_ENABLE_VIRTUAL_ENV#
全局启用模型虚拟环境。默认值为1(启用,自v2.0版本生效)
XINFERENCE_VIRTUAL_ENV_SKIP_INSTALLED#
创建虚拟环境时跳过系统site-packages中已存在的包。默认值为1。
XINFERENCE_CSG_TOKEN#
CSGHub模型源的认证令牌。默认值为未设置。
XINFERENCE_CSG_ENDPOINT#
CSGHub 模型源端点。默认值为 https://hub-stg.opencsg.com/ 。
XINFERENCE_QWEN3_RERANK_TEMPLATE#
Enable template for Qwen3 rerank model family (0.6B, 4B, 8B,etc) globally. Default value is 1.