跳转至主要内容

Ctrl+K

入门指南
模型
用户指南
API 指南
开发指南
产品官网

GitHub
Telegram
Zhihu

入门指南
模型
用户指南
API 指南
开发指南
产品官网

GitHub
Telegram
Zhihu

章节导航

推理引擎
客户端 API
身份验证系统（基于数据库）
OIDC 单点登录
审计日志与安全
模型加载指南
Metrics
分布式推理
连续批处理
Xavier: 多VLLM副本间共享KV Cache

用户指南

用户指南#

推理引擎
- llama.cpp
- transformers
- vLLM
- SGLang
- MLX
客户端 API
- LLM
- Embedding
- 图片
- Audio
- Rerank
身份验证系统（基于数据库）
OIDC 单点登录
审计日志与安全
- 审计日志
- 防暴力破解
模型加载指南
Metrics
- Supervisor Metrics
- Worker Metrics
分布式推理
- 支持的引擎
- 使用
连续批处理
Xavier: 多VLLM副本间共享KV Cache
- 使用
- 限制

上一页

模型显存使用量计算

下一页

推理引擎

显示源代码

© Copyright 2026, XINFERENCE HOLDINGS PTE. LTD..

由 Sphinx 8.1.3创建。

使用 PyData Sphinx Theme 0.19.0构建.