Künstliche Intelligenz
Nvidia Rubin CPX: Spezialbeschleuniger für KI-Inferencing kommt Ende 2026
Nvidia will Ende 2026 einen speziellen Beschleunigerchip auf den Markt bringen, den Rubin CPX. Er soll speziell KI-Anwendungen mit enormen Context-Anforderungen (siehe unten) beschleunigen, denen wiederum eine besonders hohe Profitabilität unterstellt wird. Darunter sind KIs, die Programmcode liefern oder KI-Filme aus dem Nichts erstellen. Rubin CPX soll die spezifischen Flaschenhälse bei der Verarbeitung solcher KI-Modelle gezielt angehen.
Der Chip gehört zu Nvidias 2026 kommender Vera-Rubin-Generation von Rechenzentrumsbeschleunigern, die bereits ihren Tape-Out hinter sich hat. Er ist entweder direkt im Rackeinschub integriert oder als Zusatz-Beschleuniger in separaten Einschüben zu bekommen.
Mixture-of-Experts und Context-Länge
Die aktuell angesagten KI-Modelle wie DeepSeek R1, Llama4 Maverick, gpt-ossm, Qwen3 oder auch Kimi K2 verwenden eine Technik, die man Mixture-of-Experts nennt. Dabei kommen verschieden spezialisierte neuronale Netze (die Experts) für unterschiedliche Anfragen(teile) zum Einsatz. Das wiederum führt bei den einzelnen Experten zu geringeren Anforderungen an Speicher und Rechenleistung.
Der Trick ist, die optimale Mixtur von Experten für jede Anfrage hinzubekommen; die Verteilung der Anfragen auf die Experten wird entscheidend. Gerade in Verbindung mit Reasoning müssen die einzelnen Experten miteinander kommunizieren und das MoE-Modell als Ganzes wird aufwendiger.
Zugleich werden die Antworten von KI-Anwendungen um Größenordnungen komplexer, etwa durch die Ausgabe ganzer Programmcode-Sequenzen oder künstlich erzeugter Filme. Das lässt die Anzahl der Token, die ständig berücksichtigt werden müssen, exponentiell ansteigen. Ein Token ist dabei die kleinste Informationseinheit, die innerhalb einer KI eine numerische ID zugewiesen bekommt, um die Berechnungen zu vereinfachen. Ein Token kann Informationen von einem Buchstaben bis hin zu kurzen Phrasen repräsentieren. Schätzungen setzen ein englisches Wort im Durchschnitt mit 1,5 Token gleich.
Nvidias Vera Rubin-Beschleuniger in einer künstlerischen Darstellung. Damit ausgerüstete Systeme sollen 2026 in Rechenzentren ankommen.
Damit die Antwort in sich konsistent ist, muss die KI intern noch weitaus mehr Token bei der Gewichtung berücksichtigen als im Antwortfenster ausgegeben werden, das nennt man Context. Chat-GPT 3.5 hatte anfangs ein Context-Window von 4096 Token. GPT-4o ist schon bei 128.000 Token, Google Gemini 1.5 Pro bei 2 Millionen Token.
Disaggregated Serving
Ein dadurch entstandener Optimierungsansatz ist das entkoppelte Beantworten der Anfragen (disaggregated serving). Dabei werden Context- und Prefill-Stufen bei der Beantwortung einer Anfrage verschiedenen Beschleunigern zugewiesen. Nvidia nutzt das bereits mit aktuellen GB200-Blackwell-Systemen. So arbeiten etwa in den optimierten Einreichungen zu den KI-Benchmarks der MLCommons MLPerf Inference v5.1 von den 72 Blackwell-GPUs eines NVL72-Racks 56 GPUs nur am Context und nur die restlichen 16 erzeugen die Inhalte. Diese Optimierung bringt geschätzt anhand eines ungenau beschrifteten Diagramms einen Performance-Sprung von 40 bis 45 Prozent auf Blackwell.
Nvidia macht sich dabei noch eine Eigenschaft dieser LLMs zunutze: Sie kommen mit entsprechendem Feintuning auch mit recht niedriger Rechengenauigkeit aus, sodass das hauseigene, 4-bittige Floating-Point-Format NVFP4 mit blockweise geteiltem Exponenten für die erforderliche Antwortgenauigkeit bei MLPerf Inference ausreicht.
Von Blackwell zu Rubin (CPX)
Bereits Blackwell Ultra (GB300) hat Nvidia auf maximalen Durchsatz bei diesem Format optimiert. Dafür haben die Ingenieure die Exponent-2-Funktion aufgebohrt, die im Attention-Layer aller KI-Modelle mit Transformer-Technik eine große Rolle spielt. Da diese außerhalb der auf KI-Durchsatz spezialisierten Tensorkerne in den SFU-Einheiten (Special Function Units) laufen, sind sie in Blackwell bereits zum Flaschenhals geworden, denn die EX2-Leistung gegenüber Hopper ist kaum gewachsen. Blackwell Ultra verdoppelt den EX2-Durchsatz gegenüber Blackwell von 5 auf 10,7 Billionen Exponential-Berechnungen pro Sekunde.
Ein NVL72-Schrank GB300 schafft rund 1,1 ExaFLOPS in NVFP4, Rubin NVL144 wird von Nvidia auf 3,6 EFlops projektiert und ein Rubin-CPX-Rack auf satte 8 EFlops.
Ein Rubin CPX soll Ende 2026 gegenüber dem heutigen GB300 den dreifachen Exponential-Durchsatz von 30 PFlops NVFP4 schaffen. Da die Context-Phase weniger schnellen RAM benötigt und hauptsächlich von den Berechnungen limitiert wird, setzt Nvidia bei Rubin CPX auf 128 GByte GDDR7-Speicher.
(csp)
Künstliche Intelligenz
software-architektur.tv: Mit klugen Prompts LLMs zu besseren Partnern machen
„Implementiere Feature X“ – und schon spuckt das Large Language Model (LLM) komplexen Code aus, ohne dass die Entwicklerin oder der Entwickler nach der Architektur gefragt hat. Man erhält funktionsfähigen Code, kann aber nicht nachvollziehen, warum diese Entscheidungen getroffen wurden. Das Resultat: Developer verbringen mehr Zeit damit, generierten Code zu verstehen, als das eigentliche Problem zu lösen.
Im Gespräch mit Ralf D. Müller liefert Oliver Jägle, Senior Engineer bei DB Systel, eine überraschende Erklärung: Das LLM ist nicht schuld – wir kommunizieren schlecht, was wir brauchen. Mit „Responsible Vibe MCP“ demonstriert er, wie ein intelligenter „Conversation State Manager“ als digitaler Projektleiter fungiert und LLMs durch strukturierte Entwicklungsworkflows führt.
Statt sofortiger Code-Dumps führt das Tool systematisch durch Requirements-Klärung: Wer sind die Nutzer? Welche Constraints? Welche Features sind kritisch? Das Ergebnis: durchdachte, begründete Architektur-Entscheidungen statt zufälliger Tech-Stack-Kombinationen.
(Bild: Golden Sikorka/Shutterstock)
Die Online-Konferenz LLMs im Unternehmen am 29. Oktober zeigt, wie man das passende Modell auswählt, die Infrastruktur aufbaut und die Sicherheit im Griff behält. Außerdem gibt der Thementag von iX und dpunkt.verlag einen Ausblick auf Liquid Foundation Models als nächste Generation von LLMs.
Ein praktisches Gespräch über die Transformation von Code-generierenden Maschinen zu durchdachten Entwicklungspartnern – durch bessere Kommunikation statt LLM-Zähmung.
Livestream am Freitag, 12. September
Die Ausstrahlung findet am Freitag, 12. September 2025, live von 13 bis 14 Uhr statt. Die Folge steht im Anschluss als Aufzeichnung bereit. Während des Livestreams können Interessierte Fragen via Twitch-Chat, YouTube-Chat, Bluesky, Mastodon, Slack-Workspace oder anonym über das Formular auf der Videocast-Seite einbringen.
software-architektur.tv ist ein Videocast von Eberhard Wolff, Blogger sowie Podcaster auf iX und bekannter Softwarearchitekt, der als Head of Architecture bei SWAGLab arbeitet. Seit Juni 2020 sind über 250 Folgen entstanden, die unterschiedliche Bereiche der Softwarearchitektur beleuchten – mal mit Gästen, mal Wolff solo. Seit mittlerweile mehr als zwei Jahren bindet iX (heise Developer) die über YouTube gestreamten Episoden im Online-Channel ein, sodass Zuschauer dem Videocast aus den Heise Medien heraus folgen können.
Weitere Informationen zur Folge finden sich auf der Videocast-Seite.
(mdo)
Künstliche Intelligenz
iPhone Air bekommt externen Akku – speziell für dieses Modell
Über Jahre verkaufte Apple ein sogenanntes MagSafe-Battery-Pack. Dabei handelte es sich um einen vergleichsweise dicken Akku, den man über Apples Magnettechnik auf den iPhone-Rücken klemmen konnte, um das Handy induktiv aufzuladen. Mittlerweile vom Markt genommen, feiert das Strompaket nun eine Wiedergeburt. Die ist allerdings sehr speziell: Die neue MagSafe-Batterie gibt es nur für das dünnste iPhone aller Zeiten, das iPhone Air.
Akku zu lang für andere iPhones
Obwohl Apple sich bei dem Modul an seinen eigenen MagSafe-Standard hält, will der Konzern offenbar nicht, dass man den 115 Euro teuren Zusatzakku mit anderen iPhones nutzt. Ob dieser „Kopierschutz“ auch Software-seitig umgesetzt wurde und was passiert, wenn man es trotzdem versucht, ist bislang noch unklar. Es gibt aktuell nur die offizielle Kompatibilitätsangabe – und dort steht Schwarz auf Weiß, dass die neue MagSafe-Batterie nur mit dem iPhone Air arbeitet.
Einer der Gründe dürfte die Form des Akkus sein: Er ist länglich und vergleichsweise schmal. Daher liefe er bei den anderen iPhone-17-Modellen – und möglicherweise auch diversen anderen iPhones – in den Kamerahügel hinein, eine MagSafe-Verbindung wäre also nicht möglich. Gehen könnte es, wenn man eine iPhone-Hülle verwendet, die den Kamerabereich „abflacht“. Allerdings würde dieser dann trotzdem verdeckt – unschön im täglichen Einsatz. Was jedoch vermutlich geht, ist eine Verwendung des Stromspeichers via USB-C. Der Stecker ist offenbar PowerDelivery-typisch bidirektional ausgelegt, spekuliert das Apple-Blog 9to5Mac.
65 Prozent mehr Strom, dafür dicker
Bislang ist unklar, wie viel mAh die MagSafe-Batterie liefert. Apple gibt nur an, dass ein iPhone Air so „bis zu 65 Prozent“ länger laufen soll – und damit auch ein iPhone 17 Pro Max schlägt. Das Aufladen via MagSafe ist nicht besonders flott: Laut Apple sind maximal 12 Watt drin, obwohl das Air bis zu 20 Watt Ladeleistung via MagSafe beherrscht. Aufgetankt wird der Stromspeicher via USB-C mit einem Netzteil, das mindestens 20 Watt haben soll. Angaben zu Ladezeiten machte Apple hier nicht.
Alles in allem ist die neue MagSafe-Batterie ein interessantes Produkt, zeigt aber auch, dass Apples ultraflaches iPhone Air eben kein Dauerläufer sein dürfte. Wer den Akku andockt, gibt das indirekt zu – und versaut sich die ganze Dünnheit. Apple betont, auch intern an Routinen geschraubt zu haben, um den integrierten Stromspeicher bestmöglich für „all day battery life“ auszunutzen. Wer das iPhone Air viel verwendet, dürfte hier aber schnell an praktische Grenzen stoßen. 3149 mAh hat die interne Batterie nur.
(bsc)
Künstliche Intelligenz
Quick Charge 5+: Qualcomm verspricht kühleres, schnelles Laden
Qualcomm hat zum ersten Mal seit fünf Jahren seine Schnellladetechnologie Quick-Charge aktualisiert. Auf Quick-Charge 5 von 2020 folgt nun Quick-Charge 5+ – dieser verspricht keinen weiteren Leistungsschub beim Laden. Stattdessen will das US-Unternehmen damit kühleres, schnelles Laden realisieren.
Quick-Charge 5+ unterstützt wie die Vorgängergeneration abermals Ladegeschwindigkeiten von über 100 W, damit kann ein 4.500-mAh-Akku von null auf 50 Prozent in etwa fünf Minuten aufladen. Im Unterschied zur fünf Jahre alten Version soll die neue für eine kühlere und effizientere Stromversorgung sorgen. Laut Qualcomm können damit Smartphones mit 20 V/7 A bei einer Ladeleistung von bis zu 140 W aufgeladen werden, sofern sie es unterstützen.
Weniger Wärmeentwicklung beim Laden
Dieser für Qualcomm neue Ansatz zielt darauf ab, dass Quick-Charge 5+ „niedrigere Gerätetemperaturen, eine verbesserte Akkuleistung und eine stabile Leistung, sowie längere Akkugesundheit“ bieten soll. Qualcomm zufolge würden andere Schnellladelösungen aufgrund höherer Spannungen mehr Wärme erzeugen, was wiederum dazu führe, dass die Ladegeschwindigkeit früher verringert werde, um die Geräte kühler zu halten.
Wie Android Authority bemerkt, ist Qualcomm nicht das erste Unternehmen, das auf geringere Spannung setzt: Auch Oppos beziehungsweise Oneplus’ proprietäre Vooc-Ladetechnologie verfolgt diesen Ansatz: Damit sei es möglich, eine Ladeleistung von 120 W mit 11 V/11 A oder 80 W mit 11 V/7,3 A zu liefern. Dass Qualcomm diesen Ansatz jetzt verfolgt, ist angesichts der Präsenz des Unternehmens und der Kompatibilität von Quick-Charge mit USB-PPS (Programmable Power Supply) durchaus willkommen.
Kompatibilität von Quick-Charge 5+
(Bild: Qualcomm)
Laut Qualcomm ist Quick-Charge 5+ rückwärtskompatibel mit früheren QC-Standards bis hin zu Quick-Charge 2. Der Chip-Entwickler ergänzt, dass die Chips, die später in diesem Monat auf dem Snapdragon Summit vorgestellt werden, ebenfalls den neuen Ladestandard unterstützen werden. Erstes Zubehör mit Quick-Charge 5+ werde noch im Laufe dieses Jahres auf den Markt kommen.
(afl)
-
Datenschutz & Sicherheitvor 3 Monaten
Geschichten aus dem DSC-Beirat: Einreisebeschränkungen und Zugriffsschranken
-
UX/UI & Webdesignvor 3 Wochen
Der ultimative Guide für eine unvergessliche Customer Experience
-
Apps & Mobile Entwicklungvor 3 Monaten
Metal Gear Solid Δ: Snake Eater: Ein Multiplayer-Modus für Fans von Versteckenspielen
-
Social Mediavor 3 Wochen
Relatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist
-
UX/UI & Webdesignvor 2 Wochen
Adobe Firefly Boards › PAGE online
-
Online Marketing & SEOvor 3 Monaten
TikTok trackt CO₂ von Ads – und Mitarbeitende intern mit Ratings
-
Entwicklung & Codevor 1 Woche
EventSourcingDB 1.1 bietet flexiblere Konsistenzsteuerung und signierte Events
-
Entwicklung & Codevor 3 Wochen
Posit stellt Positron vor: Neue IDE für Data Science mit Python und R