Künstliche Intelligenz

KI-Kosten reduzieren: Wie man mit Prompt-Caching messbar Token sparen kann

Prompt-Caching senkt den Preis pro Anfrage an ein großes Sprachmodell deutlich und erhöht die Antwortgeschwindigkeit. Der Mechanismus ist simpel, wird in der Praxis aber oft übersehen oder durch ungeschickt strukturierte Prompts unwirksam gemacht.

Wie es funktioniert und was es bringt, lässt sich mit lokal installierten Tools und einem lokalen Ollama nachvollziehen. Die Erkenntnisse sind auf Cloud-Anbieter wie Anthropic übertragbar, wo Prompt-Caching bis 90 Prozent der Token sparen kann.

Prompt-Caching speichert die internen Berechnungsergebnisse eines gleichbleibenden Promptpräfixes zwischen, sodass das Sprachmodell bei Folgeanfragen nur noch den neuen, abweichenden Teil verarbeiten muss.
Technische Grundlage ist der KV-Cache der Transformer-Architektur: Die einmal berechneten Key- und Value-Vektoren der Prefill-Phase werden wiederverwendet.
Lokal kann ein Prompt-Cache die Inferenzgeschwindigkeit um das bis zu Zehnfache steigern, in der Cloud die Kosten um 90 Prozent reduzieren.
Entscheidend ist die Promptstruktur. Stabile Inhalte wie Systemanweisungen oder Dokumente gehören an den Anfang, variable Daten ans Ende.

Wie ein LLM Text erzeugt

Ein großes Sprachmodell ist im Kern eine Textergänzungsmaschine. Seine Eingabe, der Prompt, ist eine Zeichenkette, die sich typischerweise aus drei Schichten zusammensetzt: einer Rollen- oder Verhaltensanweisung (dem Systemprompt), optionalem Kontext wie Dokumenten, Tooldefinitionen oder bisherigem Gesprächsverlauf und am Ende der aktuellen Frage des Benutzers.

Das war die Leseprobe unseres heise-Plus-Artikels „KI-Kosten reduzieren: Wie man mit Prompt-Caching messbar Token sparen kann“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.

Source link

Up Next

10-Gigabit-Netzwerk für zu Hause: Voraussetzungen und Verkabelung

Nicht verpassen

Donnerstag: EU-Rückzug von Binance, Anthropic mit Ausweispflicht für KI-Nutzer

Künstliche Intelligenz

software-architektur.tv: Wie fährst du dein Projekt zuverlässig an die Wand?

Softwareprojekte sind chaotisch, anstrengend und voller Überraschungen. Und ganz ehrlich: So soll es auch bleiben. Ordnung würde ja nur den Spaß verderben. Trotzdem gibt es immer wieder Menschen, die glauben, man könnte Projekte wirklich zum Erfolg führen … unglaublich, oder?

Weiterlesen nach der Anzeige

Ein paar goldene Regeln

In dieser Folge werfen Andreas Monschau und Ralf Müller einen Blick auf goldene Anti-Pattern, mit denen sich Softwareprojekte besonders zuverlässig ruinieren lassen. Nicht alle, aber einige besonders wirkungsvolle Regeln kommen auf den Tisch, welche genau, verraten die beiden vorab aber nicht. Nur so viel: Die Muster sind nicht ausgedacht. Sie begegnen Entwicklerinnen und Softwarearchitekten in echten Projekten immer wieder – oft gut getarnt als Pragmatismus, Zeitdruck oder „das haben wir schon immer so gemacht“. Manche entfalten ihre volle Zerstörungskraft sofort, andere erst Monate später.

Am Ende bleibt die Frage: Wenden wir alle diese Anti-Pattern weiterhin mit beeindruckender Konsequenz an – oder verändern wir vielleicht doch etwas?

Andreas Monschau spricht bei den IT-Tagen 2026 am 12. Juli in Frankfurt. Mit dem Code ITT26-SIS-352 erhalten Interessierte 100 Euro Rabatt auf ein Ticket.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Livestream am 26. Juni

Die Ausstrahlung findet am Freitag, 26. Juni 2026, live ab 13:00 Uhr statt. Die Folge steht im Anschluss als Aufzeichnung bereit. Während des Livestreams können Interessierte Fragen via Twitch-Chat, YouTube-Chat oder anonym über das Formular auf der Videocast-Seite einbringen.

Weiterlesen nach der Anzeige

software-architektur.tv ist ein Videocast von Eberhard Wolff, iX-Blogger und bekannter Softwarearchitekt, der als Head of Architecture bei SWAGLab arbeitet. Zum Team gehören außerdem Lisa Maria Schäfer (Socreatory) und Ralf D. Müller (DB Systel). Seit Juni 2020 sind über 250 Folgen entstanden, die unterschiedliche Bereiche der Softwarearchitektur beleuchten – mal mit Gästen, mal solo mit Wolff, Schäfer oder Müller. Seit mittlerweile mehr als zwei Jahren berichtet iX (heise Developer) über die Episoden.

(map)

Source link

Künstliche Intelligenz

Meta setzt verstärkt auf KI-Moderation statt menschlicher Prüfer

Meta will die Moderation der Inhalte in seinen Netzwerken bis Ende des Jahres weitgehend automatisieren. Bereits jetzt hätten Large Language Models (LLMs) laut Financial Times die Hälfte aller menschlichen Überprüfungsanfragen ersetzt. Bis Ende 2026 soll der Anteil weiter sinken, sodass bei bestimmten Inhaltstypen neun von zehn Moderationen durch die KI erledigt werden. Meta soll die Umwandlung laut Informanten vor allem deshalb vorantreiben, um die enormen KI-Investitionen des Unternehmens gegenzufinanzieren. Der KI-Einsatz spare Milliarden US-Dollar ein. Meta selbst bestreitet dies. Bereits Anfang 2026 hatte Meta-Chef Mark Zuckerberg angekündigt, einzelne Mitarbeiter mit KI-Werkzeugen so auszurüsten, dass sie Aufgaben ganzer Abteilungen übernehmen können.

Weiterlesen nach der Anzeige

Die Konzernmutter von Facebook, Threads und Instagram nutzte bislang eine Mischung aus automatisierten Systemen und menschlichen Prüfern, wobei ein Teil davon von Vertragsfirmen übernommen wurde. Die bisherigen Machine-Learning-Tools hätten sich jedoch teilweise mit Satire und Veränderungen in der Alltagssprache schwer getan. Meta selbst begründet den KI-Vorstoß laut FT mit einer Qualitätsverbesserung. Interne Tests hätten gezeigt, dass LLMs im Schnitt 13 Prozent weniger Fehler machen würden und 10 Prozent mehr Verstöße finden als Menschen.

Wechsel von Google Gemini zu Muse Spark

Die Umstellung führt zur Entlassung von Mitarbeitern. Betroffen seien zunächst vor allem Vertragsfirmen, deren Verträge nicht verlängert werden. Bereits im Frühjahr hatte Meta angekündigt, rund zehn Prozent der Belegschaft zu entlassen und gleichzeitig tausende Mitarbeiter in neue KI-Abteilungen zu versetzen. Letztlich dürfte ein hoher Automatisierungsgrad aber auch bei Meta selbst zu Einsparungen beim Personal führen.

Bislang soll Meta für die KI-Moderation Google Gemini eingesetzt haben. Die LLMs seien unter anderem mit früheren Entscheidungen menschlicher Prüfer bei Widerspruchsverfahren trainiert worden. Inzwischen wurden Mitarbeiter aber angewiesen, auf Metas eigenes Modell Muse Spark, dem ersten Modell der Muse-Reihe von Metas Superintelligence Labs umzusteigen. Schon im Juni 2025 hatte Meta begonnen, auch Risikoprüfungen für neue Funktionen weitgehend durch KI zu ersetzen – damals ging es um Datenschutz- und Integritätsbewertungen für Facebook, Instagram und WhatsApp. Laut Informationen der FT soll es intern Kritik geben, dass die KI-Moderation zu schnell ausgerollt wird. Die LLMs machten Fehler wie das Sperren oder Unsichtbarmachen von harmlosen Inhalten. Zudem gebe es unzureichende Metriken zur Leistungsmessung. Meta weist dies zurück.

Lesen Sie auch

(mki)

Source link

Künstliche Intelligenz

Angriffe auf Cisco Unified CM beobachtet

Eine Anfang des Monats von Cisco ausgebesserte Schwachstelle in Ciscos Unified Communications Manager ermöglicht Angreifern, Dateien hochzuladen und ihre Rechte dabei auf „root“ auszuweiten. Ein Update steht seitdem bereit. Jetzt haben IT-Forscher Angriffe auf die Sicherheitslücke beobachtet.

Weiterlesen nach der Anzeige

Die Analysten von DefusedCyber schreiben auf X, dass sie den Missbrauch der Schwachstelle CVE-2026-20230 am vergangenen Wochenende beobachtet haben. Es handelt sich um eine Server-Side Request Forgery (SSRF), bei der Angreifer Zugriff auf interne, geschützte Netzwerke erhalten. Einige HTTP-Anfragen werden laut Ciscos Mitteilung nicht korrekt geprüft, sodass nicht authentifizierte Angreifer aus dem Netz sogar schreibenden Zugriff auf das Betriebssystem und dabei root-Rechte erlangen können (CVE-2026-20230, CVSS 8.6, Risiko „hoch“). Cisco hat abweichend von der CVSS-Bewertung das Risiko jedoch als „kritisch“ eingeschätzt – offenbar zu Recht.

DefusedCyber schreiben, dass vorheriger Missbrauch nicht bekannt war und dass die CISA die Lücke noch nicht in ihrem „Known Exploited Vulnerabilities“-Katalog auflistet. Zunächst haben die IT-Forscher lediglich eine Quell-IP ausgemacht, von der Attacken mit einem Proof-of-Concept-Exploit erfolgten. Der PoC hat mit „file://“-URLs versucht, Schadcode auf das System zu schreiben. Am Mittwoch hat DefusedCyber auf LinkedIn nachgelegt und berichtet von automatisierten Scans aus dem Tor-Netzwerk, die Webshells auf anfällige Geräte verfrachten.

Angriffe installieren Server-Dienste

Die beobachteten Angriffsketten missbrauchen die SSRF im WebDialer, um bösartige Apache-Axis-Dienste zu verteilen. Diese Dienste nutzen sie dann, um einen JSP-File-Writer anzulegen, der in einer zweiten Stufe eine befehlsausführende Shell im Pfad „/platform-services/axis2-web/“ verankert.

Cisco schreibt in der eigenen Sicherheitsmitteilung, dass das Unternehmen von veröffentlichtem Proof-of-Concept-Exploitcode weiß. Eine Aktualisierung um den aktuell beobachteten Missbrauch liegt jedoch noch nicht vor. Weiteren Sicherheitsmeldungen zufolge kursieren bereits seit dem Tag nach der Veröffentlichung des Updates Exploit-Codes, die voll funktionsfähig sind. IT-Verantwortliche sollten daher zügig die Aktualisierung anwenden, sofern sie das noch nicht erledigt haben. Hinweise auf erfolgreiche Angriffe (Indicators of Compromise, IOC) gibt es derzeit leider noch nicht.

(dmk)

Source link

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

Künstliche Intelligenzvor 3 Monaten

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

Künstliche Intelligenzvor 3 Monaten

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Künstliche Intelligenzvor 3 Monaten

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Kine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild

Künstliche Intelligenzvor 3 Monaten

Kine‑Exakta: Die erste Spiegelreflexkamera fürs Kleinbild

Weitere Entlassungswelle bei Disney: Bis zu 1000 Mitarbeiter betroffen

Künstliche Intelligenzvor 2 Monaten

Weitere Entlassungswelle bei Disney: Bis zu 1000 Mitarbeiter betroffen

xTool P3 im Test: CO₂-Laser mit 80 Watt schneidet und graviert auch Acryl

Künstliche Intelligenzvor 2 Monaten

xTool P3 im Test: CO₂-Laser mit 80 Watt schneidet und graviert auch Acryl

Metas neuer Creative Setup Workflow: Was sich wirklich ändert – und warum das nicht nur eine UI-Frage ist!

Social Mediavor 1 Monat

Metas neuer Creative Setup Workflow: Was sich wirklich ändert – und warum das nicht nur eine UI-Frage ist!

Mega-GPUs für Nvidia, AMD & Co: TSMC zeigt CoWoS-Package mit >11.600 mm² & 24 × HBM5E

Apps & Mobile Entwicklungvor 2 Monaten

Mega-GPUs für Nvidia, AMD & Co: TSMC zeigt CoWoS-Package mit >11.600 mm² & 24 × HBM5E

Inspohub

KI-Kosten reduzieren: Wie man mit Prompt-Caching messbar Token sparen kann

Künstliche Intelligenz

KI-Kosten reduzieren: Wie man mit Prompt-Caching messbar Token sparen kann

Wie ein LLM Text erzeugt

Künstliche Intelligenz

software-architektur.tv: Wie fährst du dein Projekt zuverlässig an die Wand?

Ein paar goldene Regeln

Empfohlener redaktioneller Inhalt

Livestream am 26. Juni

Künstliche Intelligenz

Meta setzt verstärkt auf KI-Moderation statt menschlicher Prüfer

Wechsel von Google Gemini zu Muse Spark

Lesen Sie auch

Künstliche Intelligenz

Angriffe auf Cisco Unified CM beobachtet

Angriffe installieren Server-Dienste

GPT-5.5 Instant ist da: ChatGPT versteht User jetzt besser

software-architektur.tv: Wie fährst du dein Projekt zuverlässig an die Wand?

Sicherheitsupdate: Kritische Client-Handshake-Lücke bedroht IBM Db2

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Beliebt

Inspohub

KI-Kosten reduzieren: Wie man mit Prompt-Caching messbar Token sparen kann

Wie ein LLM Text erzeugt

Das könnte Ihnen gefallen

Künstliche Intelligenz

software-architektur.tv: Wie fährst du dein Projekt zuverlässig an die Wand?

Ein paar goldene Regeln

Empfohlener redaktioneller Inhalt

Livestream am 26. Juni

Künstliche Intelligenz

Meta setzt verstärkt auf KI-Moderation statt menschlicher Prüfer

Wechsel von Google Gemini zu Muse Spark

Künstliche Intelligenz

Angriffe auf Cisco Unified CM beobachtet

Angriffe installieren Server-Dienste

GPT-5.5 Instant ist da: ChatGPT versteht User jetzt besser

software-architektur.tv: Wie fährst du dein Projekt zuverlässig an die Wand?

Sicherheitsupdate: Kritische Client-Handshake-Lücke bedroht IBM Db2

Empfehlungsalgorithmen bei TikTok erklärt: Die Maschine hinter dem Endlos‑Feed

iX-Workshop Angriffsziel lokales AD − Schwachstellen finden und beheben

„Don’t Starve Elsewhere“: Survival‑Hit kehrt nach zehn Jahren zurück

Beliebt