Xavier: 多VLLM副本间共享KV Cache#
对于长文档查询和多轮对话等场景,在推理预填充阶段的计算可能特别繁重,这会影响整体吞吐量和单次推理的延迟。Xinference 通过引入 Xavier
框架来增强 vllm 引擎,支持在多个 vllm 实例之间共享 KV 缓存。这使得其他副本计算出的 KV 缓存可以被直接重用,从而避免了冗余计算。
使用#
启动 vllm 模型时设置选项 enable_xavier=True
即可。
限制#
Xavier 要求 vllm 版本不低于
0.6.5
。由于底层通信无法识别
0.0.0.0
地址,启动 xinference 时需要配置实际的 IP 地址,例如:xinference-local -H 192.168.xx.xx
。