跳转至主要内容
Ctrl+K

Xinference

  • 入门指南
  • 模型
  • 用户指南
  • 示例
  • API 指南
  • 开发指南
  • 产品官网
  • GitHub
  • WeChat
  • Zhihu
  • 入门指南
  • 模型
  • 用户指南
  • 示例
  • API 指南
  • 开发指南
  • 产品官网
  • GitHub
  • WeChat
  • Zhihu

章节导航

  • 推理引擎
  • 客户端 API
  • OAuth2 系统(实验性质)
  • 模型加载指南
  • Metrics
  • 分布式推理
  • 连续批处理
  • Xavier: 多VLLM副本间共享KV Cache
  • 用户指南

用户指南#

  • 推理引擎
    • llama.cpp
    • transformers
    • vLLM
    • SGLang
    • MLX
  • 客户端 API
    • LLM
    • Embedding
    • 图片
    • Audio
    • Rerank
  • OAuth2 系统(实验性质)
    • 权限
    • 开始使用
    • 使用
    • Http 状态码
    • 注意
  • 模型加载指南
    • 副本
    • 混合分配策略
    • 设置环境变量
    • 配置模型虚拟空间
    • 批处理 / 连续批处理
    • 思考模式
  • Metrics
    • Supervisor Metrics
    • Worker Metrics
  • 分布式推理
    • 支持的引擎
    • 使用
  • 连续批处理
    • 使用方式
    • 中止请求
    • 注意事项
  • Xavier: 多VLLM副本间共享KV Cache
    • 使用
    • 限制

上一页

模型显存使用量计算

下一页

推理引擎

显示源代码

© Copyright 2025, Xorbits Inc..

由 Sphinx 8.1.3创建。

使用 PyData Sphinx Theme 0.18.0构建.