total_duration:生成响应所花费的总时间load_duration:加载模型所花费的时间prompt_eval_count:处理的输入 token 数量prompt_eval_duration:评估提示词所花费的时间eval_count:处理的输出 token 数量eval_duration:生成输出 token 所花费的时间
响应示例
对于返回使用情况指标的端点,响应正文将包含使用情况字段。例如,对/api/generate 的非流式调用可能会返回以下响应
done 为 true。
