跳过至正文
上下文长度是模型在内存中可以访问的最大 token 数量。
Ollama 根据显存 (VRAM) 默认设置以下上下文长度:
  • < 24 GiB 显存:4k 上下文
  • 24-48 GiB 显存:32k 上下文
  • >= 48 GiB 显存:256k 上下文
需要大上下文的任务(如网页搜索、智能体和编码工具)应设置为至少 64000 个 token。

设置上下文长度

设置较大的上下文长度会增加运行模型所需的内存量。请确保您有足够的可用显存来增加上下文长度。 云端模型默认设置为其最大上下文长度。

应用程序

在 Ollama 应用程序设置中调节滑块,将其更改为您想要的上下文长度。 Ollama 应用程序中的上下文长度

CLI

如果无法在界面中编辑 Ollama 的上下文长度,也可以在提供 Ollama 服务时进行更新。
OLLAMA_CONTEXT_LENGTH=64000 ollama serve

检查分配的上下文长度和模型卸载情况

为了获得最佳性能,请使用模型的最大上下文长度,并避免将模型卸载到 CPU。使用 ollama ps 检查 PROCESSOR 下的分派情况。
ollama ps
NAME             ID              SIZE      PROCESSOR    CONTEXT    UNTIL
gemma3:latest    a2af6cc3eb7f    6.6 GB    100% GPU     65536      2 minutes from now