跳过至正文
POST
/
api
/
generate
curl https://:11434/api/generate -d '{
  "model": "gemma3",
  "prompt": "Why is the sky blue?"
}'
{
  "model": "<string>",
  "created_at": "<string>",
  "response": "<string>",
  "thinking": "<string>",
  "done": true,
  "done_reason": "<string>",
  "total_duration": 123,
  "load_duration": 123,
  "prompt_eval_count": 123,
  "prompt_eval_duration": 123,
  "eval_count": 123,
  "eval_duration": 123,
  "logprobs": [
    {
      "token": "<string>",
      "logprob": 123,
      "bytes": [
        123
      ],
      "top_logprobs": [
        {
          "token": "<string>",
          "logprob": 123,
          "bytes": [
            123
          ]
        }
      ]
    }
  ]
}

主体 (Body)

application/json
model
string
必填

模型名称

prompt
string

模型用于生成响应的文本

suffix
string

用于中间填空(fill-in-the-middle)模型,出现在用户提示词之后、模型响应之前的文本

images
string[]

支持图像输入的模型所使用的 Base64 编码图像

format

模型生成响应时使用的结构化输出格式。支持字符串 "json" 或 JSON 模式(schema)对象。

system
string

模型生成响应时使用的系统提示词

stream
boolean
默认:true

如果为 true,则返回部分响应的流

think

如果为 true,则除内容外还会返回单独的思考(thinking)输出。对于支持的模型,可以是布尔值(true/false)或字符串("high", "medium", "low")。

raw
boolean

如果为 true,则返回来自模型的原始响应,不进行任何提示词模板处理

keep_alive

模型保持活跃的时长(例如 5m,或设为 0 以立即卸载)

options
object

控制文本生成的运行时选项

logprobs
boolean

是否返回输出 Token 的对数概率

top_logprobs
integer

启用对数概率时,在每个 Token 位置返回的可能性最大的 Token 数量

响应

生成响应

model
string

模型名称

created_at
string

响应创建的 ISO 8601 时间戳

response
string

模型生成的文本响应

thinking
string

模型生成的思考输出

done
boolean

指示生成是否已完成

done_reason
string

生成停止的原因

total_duration
integer

生成响应所花费的时间(以纳秒为单位)

load_duration
integer

加载模型所花费的时间(以纳秒为单位)

prompt_eval_count
integer

提示词中的输入 Token 数量

prompt_eval_duration
integer

评估提示词所花费的时间(以纳秒为单位)

eval_count
integer

响应中生成的输出 Token 数量

eval_duration
integer

生成 Token 所花费的时间(以纳秒为单位)

logprobs
object[]

启用对数概率时,所生成 Token 的对数概率信息