Xavier: 多VLLM副本间共享KV Cache#

对于长文档查询和多轮对话等场景，在推理预填充阶段的计算可能特别繁重，这会影响整体吞吐量和单次推理的延迟。Xinference 通过引入 Xavier 框架来增强 vllm 引擎，支持在多个 vllm 实例之间共享 KV 缓存。这使得其他副本计算出的 KV 缓存可以被直接重用，从而避免了冗余计算。