Apps & Mobile Entwicklung

FSR 4.1 für RX 6000 (RDNA 2): Warum dauert das so lange?

AMD will das leistungsstarke KI-Upsampling FSR 4.1, das bislang RDNA-4-Grafikkarten der Serie Radeon RX 9000 vorbehalten war, offiziell auch auf älteren GPU-Generationen anbieten. Den Anfang macht schon im Juli 2026 RDNA 3, wohingegen es bei RDNA 2 erst nächstes Jahr soweit sein soll. Jetzt liefert der Hersteller neue Details.

Wieso dauert das eigentlich so lange?

Einen konkreten Termin nennt AMD aktuell noch nicht, aber frühestens „Anfang 2027“ werden Spieler mit einer Radeon-Grafikkarte der RX-6000-Generation auf AMDs aktuell leistungsstärkstes Upsampling FSR 4.1 zurückgreifen können – wobei es bei der genauen Definition, welche Produkte darunter fallen, noch offene Fragen gibt. Fest steht allerdings, dass es nach dem für Juli 2026 geplanten Release auf RDNA 3 noch einmal mindestens sechs Monate dauern wird. Wieso? Das wurde der Hersteller auf der Computex von TechPowerUp gefragt, die AMDs Antwort jetzt veröffentlicht haben.

FSR Upscaling 4.1 kommt 2027 auf Radeon RX 6000 (Bild: AMD)

Die Ursache liegt demnach bei den technischen Unterschieden zwischen der im Jahr 2022 veröffentlichten RDNA-3-Generation und der älteren RDNA-2-Architektur aus dem Jahr 2020. Beiden Generationen ist gemein, dass die älteren GPUs das FP8-Datenformat, das AMD auf RX-9000-Grafikkarten mit RDNA-4-Generation für das fortschrittliche KI-Upsampling nutzt, nicht nativ und effizient beschleunigen können. Der Hardware fehlen schlicht und ergreifend die nötigen Rechenwerke. Daher wird der bereits zuvor kolportierte Umweg via INT8 bemüht, wie AMD Mitte Mai bereits bestätigt hat, denn 8-Bit-Ganzzahlen können auch RDNA 2 und RDNA 3 effizient beschleunigen.

Aufwändiger Umweg über INT8 statt FP8

Dabei erklärt AMD zur Umsetzung für RDNA 3 gegenüber TechPowerUp: Das verwendete KI-Modell sei zwar „etwas anders“, das Resultat allerdings „von gleicher Qualität“. Aus technischer Perspektive erscheint das tatsächlich möglich. In der Theorie ließe sich bei einer ausgeklügelten Anpassung der Modellgewichte des FP8-Modells für INT8 eine ebenbürtige Bildqualität erreichen, weil beide Datentypen mindestens 242 unterschiedliche Werte darstellen können.

Auf RDNA-3-Grafikkarten nutzt AMD die INT8-ALUs (Bild: AMD)

Die Zuordnung von einem auf den anderen Datentyp ist dabei aber nicht trivial, weil sich FP8 und INT8 hinsichtlich ihres Definitisionbereichs und der Verteilung ihres Auflösevermögens unterscheiden: Wohingegen bei FP8 in etwa die Hälfte der Zustände rund um den Wert 0 verteilt sind und die Präzision nach oben wie nach unten hin mit jedem Schritt sukzessive abfällt, verteilen sich die 256 Werte einer INT8 linear von -128 bis 127. Ein einfaches Umschreiben und Runden der Gewichte des FP8-Modells ist also nicht zielführend, weil sämtliche in Nachkommastellen gespeicherten Informationen verloren gingen, wenn rund die Hälfte der Werte auf 0, 1 oder -1 abgebildet würde. Stattdessen bedarf es komplexer Anpassungen.

Diese Hausaufgaben jedenfalls hat AMD in den vergangenen eineinhalb Jahren augenscheinlich erledigt. Im Juli soll es, kurz vor der Veröffentlichung des FSR-4.1-Pakets für Radeon RX 7000, noch weitere Informationen geben. Offen ist etwa noch die Frage nach der Leistung – zwar spricht der Hersteller bisweilen von einer vergleichbaren Qualität, möglicherweise fällt der FPS-Zugewinn gegenüber der nativen FP8-Lösung auf RDNA 4 aber geringer aus.

Auf RDNA 2 wird es nochmal komplizierter

Aber was ist jetzt mit RDNA 2? Im Grunde genommen sind die älteren Radeon-Grafikkarten der RX-6000-Generation sogar von größerer Relevanz, weil entsprechende Modelle weiter verbreitet sind. So gab es in fortlaufenden Befragungen der ComputerBase-Community zu den eigenen Gaming-Grafikkarten seit Release der RX-7000-Generationen keinen Zeitpunkt, in dem mehr RDNA-3- als RDNA-2-Grafikkarten im Einsatz waren. Das ist mit Stand März 2026 noch immer so.

In der Theorie kann FSR 4.1 auch hier mithilfe des INT8-Umwegs zum Laufen gebracht werden, im Wortlaut bestätigt hat AMD dass aber noch nicht. Der Hersteller merkt lediglich an, dass sich dieses Unterfangen im Vergleich zu RDNA 3 „sehr viel komplizierter“ gestalte. Hintergrund der Probleme ist, dass RDNA-2-GPUs das INT8-Format zwar grundsätzlich effizient beschleunigen können, zu diesem Zweck aber nicht auf dedizierte ALUs oder separate KI-Einheiten zurückgreifen können. Diese hielten erst mit RDNA 3 Einzug, wohingegen die INT-8-Beschleunigen bei RDNA 2 über die „normalen“ SIMD32-ALUs der Compute Units gewährleistet wird.

Das funktioniert im Wesentlichen so, dass die GPU vier 8-Bit-Ganzzahlen hintereinander in die regulären 32-Bit-Register schreibt. Die entsprechenden ALUs haben hier bewusst Anpassungen erfahren, um die vier Werte bei ausgewählten Logik- und Rechenoperationen auseinanderhalten respektive behandeln zu können. Auf dem Papier kann der INT8-Durchsatz gegenüber INT32 damit tatsächlich vervierfacht werden, womit beispielsweise eine Radeon RX 6900 XT auf durchaus starke 92 TOPS käme – es müssen aber alle Rahmenbedingungen stimmen. In der Praxis kann und wird die effektiv abrufbare Leistung niedriger liegen.

FSR 4.1 konkurriert auf RDNA 2 mit dem 3D-Rendern

Mit dem Einsatz der 32-Bit-ALUs der gewöhnlichen Compute Units geht aber ein zweites Problem einher, das AMD auch erwähnt: RDNA 2 muss zur Beschleunigung des FSR-4.1-Modells Rechenkapazität allozieren, die in gleichem Maße vom Spiel selbst beziehungsweise der Rendering-Pipeline beansprucht wird.

Grundsätzlich ist eine derartige Konkurrenz zwischen 3D-Rendering und Upsampling nicht neu. Bei AMDs moderneren Grafikarchitekturen und Nvidias RTX-GPUs, die das Upsampling – und weitere KI-Workloads – auf separate Bereiche des Chips auslagern, beschränkt sie sich aber auf die jeweilige TDP der Grafikkarte, die nicht überschritten werden darf. Der limitierende Faktor ist also elektrische Energie, die verhältnismäßig einfach und schnell dynamisch zugewiesen werden kann. Bei einer RDNA-2-GPU müssen Spiel und Upsampling jedoch konkret um die gleichen Hardware-Einheiten wetteifern.

Es braucht noch viel mehr Optimierung

Eben dieser Sachverhalt bedinge ein deutlich höheres Maß an Optimierung, so AMD, damit FSR 4.1 trotzdem vernünftig laufe und überhaupt einen direkten Leistungsgewinn ermögliche. Aus technischer Perspektive ist das nachvollziehbar. Denn letztlich muss auf den Compute Units für jeden FSR-4.1-Durchlauf ein Kontextwechsel durchgeführt werden, um das KI-Modell in Caches und Register zu laden. Auf einer GPU geht das zwar vergleichsweise schnell, gezwungenermaßen kann FSR aber erst dann loslegen, wenn der neue Frame bereits vollständig gerendert wurden. Logisch, weil sonst Rohdaten als Eingabe des Upsampling-Algorithmus fehlen würden.

Die beschriebene Konstellation kann schnell zum Umstand führen, dass einzelne CUs und 32-Bit-ALUs brach lägen, während sie darauf warten, dass auch die letzten Bereiche des neuen Frames gerendert wurden. Dem gegenüber ist es bei getrennter Hardware deutlich einfacher, im fließenden Übergang bereits mit dem Rendern des nächsten Frames zu beginnen, weil zumindest keine logische Unterbrechung durch das Upsampling droht. Zusätzlich zu den beschriebenen Beschränkungen bei der INT8-Leistung kommt es im Fall von RDNA 2 folglich zusätzlich zu Herausforderungen beim Scheduling und der Bandbreite bei Kontextwechseln.

FSR-Zeit fehlt zum Rendern

Die Kaskade geht aber sogar noch weiter: Wohingegen die Shader-Partitionen moderner AMD-GPUs ab RDNA 3 und bei Nvidias RTX-GPUs zum ausgelagerten Start des Upsampling-Prozesses direkt mit dem Rendern des nächsten Frames beginnen und dabei auf üppig gefüllte Caches zurückgreifen können, sind die 32-Bit-Register einer RDNA-2-GPU nach all diesen Hürden erst einmal blockiert. Sämtliche Rechenzeit, die jetzt FSR 4.1 benötigt – je nach Breite der GPU können das etwa 2 ms bis 4 ms sein – fehlt anschließend zum Berechnen des nächsten Frames. Es kommt also ein weiterer negativer Einfluss auf die Bildrate hinzu, zumal die Latenz im gleichen Maße leidet.

Auf RDNA 2 hat Leistung Priorität

Das Gebot sei es in der Konsequenz, erklärt AMD, die Rechenlast des FSR-4.1-Upsamplings massiv zu reduzieren. Das Ziel sei eine „flüssige Erfahrung, ohne die Leistung zu beeinträchtigen“ – und dafür sei noch Arbeit nötig. Dem ist anzumerken, dass sich der Hersteller im Fall von RDNA 2 nicht explizit zur Bildqualität des Upsamplings äußert. Angesichts der widrigen Umstände erscheint es gut möglich, dass hier im Vergleich zur Umsetzung auf RDNA 4 und RDNA 3 mit Abstrichen gerechnet werden muss, wenn die Leistung stimmen soll.

AMD claims that making FSR 4.1 upscaling consume fewer shader cycles is very challenging. Therefore, AMD is taking more time to optimize this but plans to launch support sometime in 2027. While there is no specific timeline for when AMD will achieve this, the necessary background work is still required to deliver a smooth experience for RDNA 2 gamers without affecting performance.

TechPowerUp

Erwähnenswert ist abschließend, dass im Artikel bei TechPowerUp von einer Verfügbarkeit „irgendwann in 2027“ die Rede ist. Ob sich mit diesem Wortlaut potenziell bereits eine erste Verschiebung ankündigt, bleibt abzuwarten.

Dieser Artikel war interessant, hilfreich oder beides? Die Redaktion freut sich über jede Unterstützung durch ComputerBase Pro und deaktivierte Werbeblocker. Mehr zum Thema Anzeigen auf ComputerBase.

Source link

Verwandte Themen:das dauert FSR Fur lange RDNA Warum

Up Next

Komplett neue Einstellungen: Firefox 152 erstrahlt teilweise in neuem Glanz

Nicht verpassen

G305 X Superlight & G316 X 98: Kompakte Peripherie nach aktuellem Stand

Apps & Mobile Entwicklung

OpenAI und Anthropic meiden Markt: Microsoft ist Chinas Hauptlieferant von OpenAI-Modellen

Microsoft hat sich zum wichtigsten Vertriebspartner von OpenAI in China entwickelt. Da dieser selbst nicht in den chinesischen Markt expandieren will, verkauft der Konzern GPT-Modelle über Azure an einige der größten Internetkonzerne. Zudem profitiert Microsoft auch in anderer Hinsicht, doch das Geschäft ist nicht unumstritten.

Microsoft einziger US-amerikanische KI-Anbieter in China

Dies geht aus einem Bericht von Bloomberg hervor. Da neben Anthropic auch OpenAI den chinesischen Markt zum Schutze geistigen Eigentums und zur Vermeidung von Missbrauch nicht direkt bedienen will, hat Microsoft diese Rolle inzwischen übernommen. Grundlage dafür sind die exklusiven Vereinbarungen mit OpenAI, die dem Konzern erlauben, GPT-Modelle international zu eigenen Bedingungen zu vertreiben – und damit auch in China. Da auch Anthropic keine direkten Geschäfte im Land betreibt, ist Microsoft derzeit der einzige US-amerikanische Anbieter, der diese Modelle dort kommerziell anbietet.

Damit konnte sich Microsoft einen großen Markt erschließen, zu dem zahlungskräftige Kunden wie ByteDance, Tencent, Meituan und die Ant Group zählen. Letztere gibt allerdings an, eigene Modelle zu entwickeln und bei ihren Kernprodukten nicht auf externe Systeme angewiesen zu sein. Für Microsoft scheint sich das Risiko dennoch auszuzahlen: Allein mit ByteDance soll der Konzern inzwischen mehr als eine Milliarde US-Dollar pro Jahr mit KI- und Cloud-Diensten umsetzen. Das China-Geschäft entwickelt sich somit für den Softwarekonzern bereits seit geraumer Zeit zu einem Wachstumstreiber: Der Umsatz mit Azure-KI-Modellen in China soll sich im Geschäftsjahr bis Juni 2025 verdreifacht haben, nachdem er im Vorjahr bereits um 400 Prozent gestiegen war. Im Jahr 2024 entfielen rund 1,5 Prozent des Gesamtumsatzes auf das China-Geschäft.

China hat keinen direkten Zugriff auf Rechenzentren

Das Geschäft in China bleibt für Microsoft jedoch nicht frei von Spannungen. OpenAI soll das Unternehmen intern dazu gedrängt haben, stärker gegen das sogenannte „Distilling“ vorzugehen, bei dem die Fähigkeiten eines KI-Modells genutzt werden, um ein anderes Modell mit ähnlichen oder besseren Fähigkeiten zu entwickeln. OpenAI sieht darin die Gefahr, dass chinesische Unternehmen oder staatliche Stellen Wissen gewinnen könnten, das sich für die Entwicklung eigener KI-Systeme einsetzen lässt. Bereits im Februar dieses Jahres hatte Anthropic den chinesischen KI-Startups DeepSeek, Moonshot und MiniMax vorgeworfen, unrechtmäßig den Output von Claude zu nutzen, um Vorteile beim Training und Entwickeln eigener Modelle zu erhalten. Bereits ein Jahr zuvor hatte OpenAI den gleichen Vorwurf gegenüber DeepSeek geäußert.

Microsoft verweist hingegen auf automatisierte Kontrollen und darauf, ausschließlich mit etablierten Unternehmen zusammenzuarbeiten. Eine besondere Überwachung chinesischer Kunden soll es jedoch nicht geben. Gleichzeitig scheint sich Microsoft der Risiken bewusst zu sein: OpenAI-Modelle werden nicht in China selbst gehostet, stattdessen greifen chinesische Kunden auf Rechenzentren außerhalb des Landes zu, etwa in Singapur.

Beidseitiges Interesse

Microsoft profitiert auch in anderer Hinsicht vom China-Geschäft. Während der Konzern amerikanische OpenAI-Modelle nach China verkauft, bringt er zugleich chinesische Modelle in westliche Unternehmen. So wurde 2025 unter anderem DeepSeek R1 in Azure AI Foundry integriert. Darüber hinaus soll Microsoft eine angepasste, auf Azure gehostete Version von DeepSeek-V4 als kostengünstigere Option für Copilot Cowork testen.

Ob Microsoft das China-Geschäft langfristig ohne größere Einschränkungen fortführen kann, bleibt abzuwarten. In der US-Regierung wächst die Sorge über Chinas KI-Ambitionen, wodurch auch die China-Aktivitäten des Unternehmens zunehmend umstritten sind. Gleichzeitig könnte OpenAI zusätzlichen Druck auf seinen Vertragspartner ausüben. Derzeit dürfte das China-Geschäft allerdings für Microsoft weiterhin einen erheblichen wirtschaftlichen Vorteil gegenüber der Konkurrenz darstellen.

Source link

Apps & Mobile Entwicklung

Modellunabhängige Strategie: Microsoft prüft diverse offene Modelle für Cowork

Microsoft soll für seine Copilot-Anwendung Cowork deutlich mehr offene und Open-Weight-Modelle testen als der Konzern bislang erkennen ließ. Das Unternehmen verfolgt den Ansatz, dass sich unterschiedliche Modelle je nach Aufgabe, Kosten, Latenz und Qualitätsanforderungen flexibel austauschen lassen.

Mit dieser flexiblen Strategie könnte Microsoft seine Abhängigkeit von externen Anbietern deutlich verringern. Gleichzeitig würde jedoch der Druck auf die eigenen MAI-Modelle, eine Familie hauseigener, spezialisierter KI-Modelle des Unternehmens, steigen. Dies will die für ihre zuverlässigen Aussagen bekannte KI-Plattform TestingCatalog erfahren haben.

Selbst gehostete DeepSeek-Variante als Alternative

Das zuständige Microsoft-Team soll verschiedene offene und Open-Weight-Modelle evaluieren. Bereits vor wenigen Tagen berichtete Axios (Paywall) darüber, dass das Unternehmen eine selbst gehostete DeepSeek-Variante als kostengünstige Alternative für Copilot Cowork in Betracht ziehe. Ausschlaggebend seien dabei, wie derzeit auch bei vielen anderen KI-Anbietern, die hohen Kosten. Laut Charles Lamanna, Executive Vice President für Copilot, Agents and Platform, erledigen viele Nutzer Hunderte Aufgaben pro Woche. Das steigere zwar die Produktivität, lasse jedoch auch die Kosten „sehr hoch“ werden. Microsoft hatte deshalb – ähnlich wie zuvor Google bei Gemini – aufgrund der hohen Aufwendungen die Abrechnung von einem unbegrenzten Nutzungsmodell auf ein „nutzungsbasiertes Preismodell“ umgestellt. Unternehmen sollen damit künftig entsprechend der tatsächlich genutzten Rechenleistung zahlen. Sollte der Softwarekonzern diesen Schritt gehen, dürften sich angesichts der Herkunft von DeepSeek aus China politische und sicherheitsrelevante Diskussionen kaum vermeiden lassen.

Flexibler Ansatz soll Kosten sparen

Laut TestingCatalog gehen die angedachten Evaluierungen jedoch offenbar weit über eine reine Kostensenkung hinaus. Im Mittelpunkt steht demnach auch die Trennung zwischen dem eigentlichen Modell und der Orchestrierungsebene. Dadurch könnte die bestehende Infrastruktur unverändert bleiben, während je nach Anwendungsfall unterschiedliche Modelle zum Einsatz kommen. Ein solcher Ansatz würde erhebliche Einsparungen ermöglichen: Anspruchsvolle Aufgaben könnten weiterhin von den Frontier-Modellen übernommen werden, während weniger komplexe Prozesse auf selbst gehosteten KI-Modellen in Azure ausgeführt würden. Auch das lokale Ausführen kleinerer KI-Modelle gilt als denkbar.

Darüber hinaus würde eine solche Aufteilung Microsoft in die Lage versetzen, die Kosten langfristiger agentischer Arbeitsabläufe zu senken und Kunden mehr Auswahl bei Preisgestaltung und Modelltyp zu bieten. Gleichzeitig erhielte das Unternehmen mehr Planungssicherheit. Auf der anderen Seite würde sich Microsoft damit allerdings Konkurrenz aus den eigenen Reihen schaffen.

Noch nichts konkret

Laut mit den Tests vertrauten Quellen sollen sich die verschiedenen Ansätze bislang nicht im produktiven Einsatz, sondern noch in der Evaluierungsphase befinden. Entscheidend dürfte letztlich sein, welches Modell die Anforderungen von Unternehmenskunden hinsichtlich Kosten, Compliance, Sicherheit und Qualität am besten erfüllt.

Source link

Apps & Mobile Entwicklung

Marvell will TSMC A14: Modernste Fertigung für Next-Gen-Netzwerklösungen

Wöchentliche Gerüchte über ein mögliches Abwandern der Kunden von TSMC zu Intel lässt Platz für andere: Marvell will TSMCs A14-Fertigung als einer der ersten Kunden nutzen und so die Vorteile der neuesten Technologie ausspielen. 2028 soll dieser Prozess fertiggestellt sein, ab 2029 werden Serienprodukte erwartet.

In der Vergangenheit hat Marvell als großer Hersteller unter anderem von vielfältigen Netzwerklösungen sowohl auf Samsung, Globalfoundries und auch TSMC als Chipfertiger gesetzt. Doch in den letzten Jahren erkannte das Unternehmen dabei, dass die beste Fertigung auch Vorteile für ihre Produkte bringt. Und so übersprang man sogar Fertigungsstufen der 10/7-nm-Klasse und nutzte früh bereits kleinere Kapazitäten bei 5 nm und auch 3 nm, selbst in 2 nm werden schon erste DSPs für Marvell gefertigt. Bei A14 will das Unternehmen nun All-In gehen, die Position dabei definierte Chris Koopmans, Marvells Präsident und Chief Operating Officer in einem Interview in dieser Woche ganz klar:

We have to compete, and we have to have the best products in the world, and that’s what we’re always looking for. If TSMC maintains the absolute best technology in the world, that’s who we’re going to go [with].

Chris Koopmans, Marvell, Präsident und Chief Operating Officer

Bei Marvell geht es nun augenscheinlich also auch ein wenig in die Richtung „wenn ihr zu Intel wollt, füllen wir gern die Lücke bei TSMC“. Denn im Normalfall streiten sich die großen Platzhirsche wie Apple, Nvidia, AMD, Intel & Co um die ersten zur Verfügung stehenden Kapazitäten neuer Produktlinien bei TSMC. Würden jedoch nur einige davon auch einen Teil bei Intel fertigen lassen, könnten andere Unternehmen schnell die Kapazitäten für sich nutzen. TSMC betont stets, so etwas wie die Schweiz als Foundry zu sein, jeder darf kommen und hier seine Produkte fertigen lassen. Jahrzehntelange Partner haben mitunter aber doch einen etwas besseren Stand in Verhandlungen, da Marvell aber auch kein kompletter Neuling ist, gilt das wohl auch bereits für sie.

TSMC A14 wird als zweite Generation mit Nanosheets an den Start gehen, also auf Transistoren mit Gate All Around (GAA) setzen. N2 war die erste Generation. A14 verzichtet als Standardprozess auf Backside Power Delivery, diese Technologie ist den Fertigungsstufen A16 und A12 vorbehalten. Als Optimierung von A14 hatte TSMC im Frühjahr A13 auf den Weg gebracht.

TSMC A13 ist der Shrink von A14 (Bild: TSMC)

Marvell erlebte in den letzten Wochen und Monaten einen starken Aufwind. Erst kündigte Nvidia eine Investition in Marvell an, damit diese auch NVLink Fusion nutzen und unterstützen, zur Computex 2026 lobte Nvidias Chef dann das Unternehmen als next trillion-dollar company in den Himmel, sodass die Aktie explodierte.

Source link