用户指南# 推理引擎 llama.cpp transformers vLLM SGLang MLX 客户端 API LLM Embedding 图片 Audio Rerank OAuth2 系统(实验性质) 权限 开始使用 使用 Http 状态码 注意 模型加载指南 副本 混合分配策略 设置环境变量 配置模型虚拟空间 批处理 / 连续批处理 思考模式 Metrics Supervisor Metrics Worker Metrics 分布式推理 支持的引擎 使用 连续批处理 使用方式 中止请求 注意事项 Xavier: 多VLLM副本间共享KV Cache 使用 限制