模型显存使用量计算#

为了更好规划显存使用, Xinference 提供了计算模型显存使用量的工具:cal-model-mem

算法来自:RahulSChand/gpu_poor

输出:model_mem, kv_cache, overhead, active_mem

示例:计算 qwen1.5-chat 模型的显存用量,可以运行以下示例指令:

xinference cal-model-mem -s 7 -q Int4 -f gptq -c 16384 -n qwen1.5-chat

语法#

  • –size-in-billions {model_size}

    • -s {model_size}

    设置模型大小。以十亿个参数为单位指定模型大小。参数格式接受形式如 1_8 和 1.8. 例如,7 表示 7.0B 的模型大小。

  • –quantization {precision}

    • -q {precision} (可选)

    指定模型的量化配置。例如:Int4 参数表示使用 INT4 量化。

  • –model-name {model_name}

    • -n {model_name} (可选)

    指定模型名称。如果提供此参数,将从 huggingface/modelscope 中获取模型配置;如果没有指定,将使用默认的 layer 参数粗略估计。

  • –context-length {context_length}

    • -c {context_length}

    指定模型的最大上下文长度。

  • –model-format {format}

    • -f {format}

    指定模型的格式,例如:pytorch, ggmlv3, etc.

备注

利用环境变量 HF_ENDPOINT 可设置 HuggingFace 服务器的 Endpoint。例如,当网络不佳时可以选择 hf-mirror 作为 Endpoint. 更多请参考 此文档