用户指南# 推理引擎 llama.cpp transformers vLLM SGLang MLX 客户端 API LLM Embedding 图片 Audio Rerank OAuth2 系统(实验性质) 权限 开始使用 使用 Http 状态码 注意 Metrics Supervisor Metrics Worker Metrics 分布式推理 支持的引擎 使用 连续批处理 使用方式 中止请求 注意事项 Xavier: 多VLLM副本间共享KV Cache 使用 限制