Apps & Mobile Entwicklung

FSR 4.1 für RX 6000 (RDNA 2): Warum dauert das so lange?

AMD will das leistungsstarke KI-Upsampling FSR 4.1, das bislang RDNA-4-Grafikkarten der Serie Radeon RX 9000 vorbehalten war, offiziell auch auf älteren GPU-Generationen anbieten. Den Anfang macht schon im Juli 2026 RDNA 3, wohingegen es bei RDNA 2 erst nächstes Jahr soweit sein soll. Jetzt liefert der Hersteller neue Details.

Wieso dauert das eigentlich so lange?

Einen konkreten Termin nennt AMD aktuell noch nicht, aber frühestens „Anfang 2027“ werden Spieler mit einer Radeon-Grafikkarte der RX-6000-Generation auf AMDs aktuell leistungsstärkstes Upsampling FSR 4.1 zurückgreifen können – wobei es bei der genauen Definition, welche Produkte darunter fallen, noch offene Fragen gibt. Fest steht allerdings, dass es nach dem für Juli 2026 geplanten Release auf RDNA 3 noch einmal mindestens sechs Monate dauern wird. Wieso? Das wurde der Hersteller auf der Computex von TechPowerUp gefragt, die AMDs Antwort jetzt veröffentlicht haben.

FSR Upscaling 4.1 kommt 2027 auf Radeon RX 6000 (Bild: AMD)

Die Ursache liegt demnach bei den technischen Unterschieden zwischen der im Jahr 2022 veröffentlichten RDNA-3-Generation und der älteren RDNA-2-Architektur aus dem Jahr 2020. Beiden Generationen ist gemein, dass die älteren GPUs das FP8-Datenformat, das AMD auf RX-9000-Grafikkarten mit RDNA-4-Generation für das fortschrittliche KI-Upsampling nutzt, nicht nativ und effizient beschleunigen können. Der Hardware fehlen schlicht und ergreifend die nötigen Rechenwerke. Daher wird der bereits zuvor kolportierte Umweg via INT8 bemüht, wie AMD Mitte Mai bereits bestätigt hat, denn 8-Bit-Ganzzahlen können auch RDNA 2 und RDNA 3 effizient beschleunigen.

Aufwändiger Umweg über INT8 statt FP8

Dabei erklärt AMD zur Umsetzung für RDNA 3 gegenüber TechPowerUp: Das verwendete KI-Modell sei zwar „etwas anders“, das Resultat allerdings „von gleicher Qualität“. Aus technischer Perspektive erscheint das tatsächlich möglich. In der Theorie ließe sich bei einer ausgeklügelten Anpassung der Modellgewichte des FP8-Modells für INT8 eine ebenbürtige Bildqualität erreichen, weil beide Datentypen mindestens 242 unterschiedliche Werte darstellen können.

Auf RDNA-3-Grafikkarten nutzt AMD die INT8-ALUs (Bild: AMD)

Die Zuordnung von einem auf den anderen Datentyp ist dabei aber nicht trivial, weil sich FP8 und INT8 hinsichtlich ihres Definitisionbereichs und der Verteilung ihres Auflösevermögens unterscheiden: Wohingegen bei FP8 in etwa die Hälfte der Zustände rund um den Wert 0 verteilt sind und die Präzision nach oben wie nach unten hin mit jedem Schritt sukzessive abfällt, verteilen sich die 256 Werte einer INT8 linear von -128 bis 127. Ein einfaches Umschreiben und Runden der Gewichte des FP8-Modells ist also nicht zielführend, weil sämtliche in Nachkommastellen gespeicherten Informationen verloren gingen, wenn rund die Hälfte der Werte auf 0, 1 oder -1 abgebildet würde. Stattdessen bedarf es komplexer Anpassungen.

Diese Hausaufgaben jedenfalls hat AMD in den vergangenen eineinhalb Jahren augenscheinlich erledigt. Im Juli soll es, kurz vor der Veröffentlichung des FSR-4.1-Pakets für Radeon RX 7000, noch weitere Informationen geben. Offen ist etwa noch die Frage nach der Leistung – zwar spricht der Hersteller bisweilen von einer vergleichbaren Qualität, möglicherweise fällt der FPS-Zugewinn gegenüber der nativen FP8-Lösung auf RDNA 4 aber geringer aus.

Auf RDNA 2 wird es nochmal komplizierter

Aber was ist jetzt mit RDNA 2? Im Grunde genommen sind die älteren Radeon-Grafikkarten der RX-6000-Generation sogar von größerer Relevanz, weil entsprechende Modelle weiter verbreitet sind. So gab es in fortlaufenden Befragungen der ComputerBase-Community zu den eigenen Gaming-Grafikkarten seit Release der RX-7000-Generationen keinen Zeitpunkt, in dem mehr RDNA-3- als RDNA-2-Grafikkarten im Einsatz waren. Das ist mit Stand März 2026 noch immer so.

In der Theorie kann FSR 4.1 auch hier mithilfe des INT8-Umwegs zum Laufen gebracht werden, im Wortlaut bestätigt hat AMD dass aber noch nicht. Der Hersteller merkt lediglich an, dass sich dieses Unterfangen im Vergleich zu RDNA 3 „sehr viel komplizierter“ gestalte. Hintergrund der Probleme ist, dass RDNA-2-GPUs das INT8-Format zwar grundsätzlich effizient beschleunigen können, zu diesem Zweck aber nicht auf dedizierte ALUs oder separate KI-Einheiten zurückgreifen können. Diese hielten erst mit RDNA 3 Einzug, wohingegen die INT-8-Beschleunigen bei RDNA 2 über die „normalen“ SIMD32-ALUs der Compute Units gewährleistet wird.

Das funktioniert im Wesentlichen so, dass die GPU vier 8-Bit-Ganzzahlen hintereinander in die regulären 32-Bit-Register schreibt. Die entsprechenden ALUs haben hier bewusst Anpassungen erfahren, um die vier Werte bei ausgewählten Logik- und Rechenoperationen auseinanderhalten respektive behandeln zu können. Auf dem Papier kann der INT8-Durchsatz gegenüber INT32 damit tatsächlich vervierfacht werden, womit beispielsweise eine Radeon RX 6900 XT auf durchaus starke 92 TOPS käme – es müssen aber alle Rahmenbedingungen stimmen. In der Praxis kann und wird die effektiv abrufbare Leistung niedriger liegen.

FSR 4.1 konkurriert auf RDNA 2 mit dem 3D-Rendern

Mit dem Einsatz der 32-Bit-ALUs der gewöhnlichen Compute Units geht aber ein zweites Problem einher, das AMD auch erwähnt: RDNA 2 muss zur Beschleunigung des FSR-4.1-Modells Rechenkapazität allozieren, die in gleichem Maße vom Spiel selbst beziehungsweise der Rendering-Pipeline beansprucht wird.

Grundsätzlich ist eine derartige Konkurrenz zwischen 3D-Rendering und Upsampling nicht neu. Bei AMDs moderneren Grafikarchitekturen und Nvidias RTX-GPUs, die das Upsampling – und weitere KI-Workloads – auf separate Bereiche des Chips auslagern, beschränkt sie sich aber auf die jeweilige TDP der Grafikkarte, die nicht überschritten werden darf. Der limitierende Faktor ist also elektrische Energie, die verhältnismäßig einfach und schnell dynamisch zugewiesen werden kann. Bei einer RDNA-2-GPU müssen Spiel und Upsampling jedoch konkret um die gleichen Hardware-Einheiten wetteifern.

Es braucht noch viel mehr Optimierung

Eben dieser Sachverhalt bedinge ein deutlich höheres Maß an Optimierung, so AMD, damit FSR 4.1 trotzdem vernünftig laufe und überhaupt einen direkten Leistungsgewinn ermögliche. Aus technischer Perspektive ist das nachvollziehbar. Denn letztlich muss auf den Compute Units für jeden FSR-4.1-Durchlauf ein Kontextwechsel durchgeführt werden, um das KI-Modell in Caches und Register zu laden. Auf einer GPU geht das zwar vergleichsweise schnell, gezwungenermaßen kann FSR aber erst dann loslegen, wenn der neue Frame bereits vollständig gerendert wurden. Logisch, weil sonst Rohdaten als Eingabe des Upsampling-Algorithmus fehlen würden.

Die beschriebene Konstellation kann schnell zum Umstand führen, dass einzelne CUs und 32-Bit-ALUs brach lägen, während sie darauf warten, dass auch die letzten Bereiche des neuen Frames gerendert wurden. Dem gegenüber ist es bei getrennter Hardware deutlich einfacher, im fließenden Übergang bereits mit dem Rendern des nächsten Frames zu beginnen, weil zumindest keine logische Unterbrechung durch das Upsampling droht. Zusätzlich zu den beschriebenen Beschränkungen bei der INT8-Leistung kommt es im Fall von RDNA 2 folglich zusätzlich zu Herausforderungen beim Scheduling und der Bandbreite bei Kontextwechseln.

FSR-Zeit fehlt zum Rendern

Die Kaskade geht aber sogar noch weiter: Wohingegen die Shader-Partitionen moderner AMD-GPUs ab RDNA 3 und bei Nvidias RTX-GPUs zum ausgelagerten Start des Upsampling-Prozesses direkt mit dem Rendern des nächsten Frames beginnen und dabei auf üppig gefüllte Caches zurückgreifen können, sind die 32-Bit-Register einer RDNA-2-GPU nach all diesen Hürden erst einmal blockiert. Sämtliche Rechenzeit, die jetzt FSR 4.1 benötigt – je nach Breite der GPU können das etwa 2 ms bis 4 ms sein – fehlt anschließend zum Berechnen des nächsten Frames. Es kommt also ein weiterer negativer Einfluss auf die Bildrate hinzu, zumal die Latenz im gleichen Maße leidet.

Auf RDNA 2 hat Leistung Priorität

Das Gebot sei es in der Konsequenz, erklärt AMD, die Rechenlast des FSR-4.1-Upsamplings massiv zu reduzieren. Das Ziel sei eine „flüssige Erfahrung, ohne die Leistung zu beeinträchtigen“ – und dafür sei noch Arbeit nötig. Dem ist anzumerken, dass sich der Hersteller im Fall von RDNA 2 nicht explizit zur Bildqualität des Upsamplings äußert. Angesichts der widrigen Umstände erscheint es gut möglich, dass hier im Vergleich zur Umsetzung auf RDNA 4 und RDNA 3 mit Abstrichen gerechnet werden muss, wenn die Leistung stimmen soll.

AMD claims that making FSR 4.1 upscaling consume fewer shader cycles is very challenging. Therefore, AMD is taking more time to optimize this but plans to launch support sometime in 2027. While there is no specific timeline for when AMD will achieve this, the necessary background work is still required to deliver a smooth experience for RDNA 2 gamers without affecting performance.

TechPowerUp

Erwähnenswert ist abschließend, dass im Artikel bei TechPowerUp von einer Verfügbarkeit „irgendwann in 2027“ die Rede ist. Ob sich mit diesem Wortlaut potenziell bereits eine erste Verschiebung ankündigt, bleibt abzuwarten.

Dieser Artikel war interessant, hilfreich oder beides? Die Redaktion freut sich über jede Unterstützung durch ComputerBase Pro und deaktivierte Werbeblocker. Mehr zum Thema Anzeigen auf ComputerBase.

Source link

Verwandte Themen:das dauert FSR Fur lange RDNA Warum

Inspohub