跳过至正文
Ollama 的 API 响应包含可用于衡量性能和模型使用情况的指标
  • total_duration:生成响应所花费的总时间
  • load_duration:加载模型所花费的时间
  • prompt_eval_count:处理的输入 token 数量
  • prompt_eval_duration:评估提示词所花费的时间
  • eval_count:处理的输出 token 数量
  • eval_duration:生成输出 token 所花费的时间
所有时间值均以纳秒为单位测量。

响应示例

对于返回使用情况指标的端点,响应正文将包含使用情况字段。例如,对 /api/generate 的非流式调用可能会返回以下响应
{
  "model": "gemma3",
  "created_at": "2025-10-17T23:14:07.414671Z",
  "response": "Hello! How can I help you today?",
  "done": true,
  "done_reason": "stop",
  "total_duration": 174560334,
  "load_duration": 101397084,
  "prompt_eval_count": 11,
  "prompt_eval_duration": 13074791,
  "eval_count": 18,
  "eval_duration": 52479709
}
对于返回流式响应的端点,使用情况字段作为最后一个数据块的一部分包含在内,此时 donetrue