Künstliche Intelligenz

KI-Kosten reduzieren: Wie man mit Prompt-Caching messbar Token sparen kann

Prompt-Caching senkt den Preis pro Anfrage an ein großes Sprachmodell deutlich und erhöht die Antwortgeschwindigkeit. Der Mechanismus ist simpel, wird in der Praxis aber oft übersehen oder durch ungeschickt strukturierte Prompts unwirksam gemacht.

Wie es funktioniert und was es bringt, lässt sich mit lokal installierten Tools und einem lokalen Ollama nachvollziehen. Die Erkenntnisse sind auf Cloud-Anbieter wie Anthropic übertragbar, wo Prompt-Caching bis 90 Prozent der Token sparen kann.

Prompt-Caching speichert die internen Berechnungsergebnisse eines gleichbleibenden Promptpräfixes zwischen, sodass das Sprachmodell bei Folgeanfragen nur noch den neuen, abweichenden Teil verarbeiten muss.
Technische Grundlage ist der KV-Cache der Transformer-Architektur: Die einmal berechneten Key- und Value-Vektoren der Prefill-Phase werden wiederverwendet.
Lokal kann ein Prompt-Cache die Inferenzgeschwindigkeit um das bis zu Zehnfache steigern, in der Cloud die Kosten um 90 Prozent reduzieren.
Entscheidend ist die Promptstruktur. Stabile Inhalte wie Systemanweisungen oder Dokumente gehören an den Anfang, variable Daten ans Ende.

Wie ein LLM Text erzeugt

Ein großes Sprachmodell ist im Kern eine Textergänzungsmaschine. Seine Eingabe, der Prompt, ist eine Zeichenkette, die sich typischerweise aus drei Schichten zusammensetzt: einer Rollen- oder Verhaltensanweisung (dem Systemprompt), optionalem Kontext wie Dokumenten, Tooldefinitionen oder bisherigem Gesprächsverlauf und am Ende der aktuellen Frage des Benutzers.

Das war die Leseprobe unseres heise-Plus-Artikels „KI-Kosten reduzieren: Wie man mit Prompt-Caching messbar Token sparen kann“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.

Source link

Inspohub

Künstliche Intelligenz

KI-Kosten reduzieren: Wie man mit Prompt-Caching messbar Token sparen kann

Wie ein LLM Text erzeugt

Beliebt