Künstliche Intelligenz
Microsoft Azure: KI-Beschleuniger Maia 200 soll Google TPU v7 übertrumpfen
Weiterlesen nach der Anzeige
Der Hyperscale-Clouddienstleister Microsoft Azure kündigt die zweite Generation seines hauseigenen KI-Rechenbeschleunigers an, den Maia 200. Er verarbeitet 10 Billiarden FP4-Werte pro Sekunde (10 PFlops), steuert 216 Gigabyte schnellen HBM3E-Speicher an und lässt sich mit 1,4 TByte/s mit anderen Maia-200-Knoten koppeln.
Mit diesen Eckdaten sowie unter 900 Watt Leistungsaufnahme soll Maia 200 die aktuellen KI-Beschleuniger von Google Cloud (TPU v7) und Amazon AWS (Trainium 3) übertreffen.
Bei einem KI-Beschleuniger, den Kunden nur in Form von Cloudinstanzen mieten können, ist aber vor allem der Preis dafür spannend; den verrät Azure zunächst nicht. Doch Maia 200 soll 30 Prozent mehr Performance pro Dollar liefern.
Maia-200-Instanzen stellt Microsoft zuerst in der Azure-Region US Central bereit, dann folgt US West 3 bei Phoenix/Arizona.
Konkurrenz-Vergleich
Um die Vorteile von Maia 200 zu illustrieren, veröffentlicht Microsoft die folgende Tabelle:
Weiterlesen nach der Anzeige
| KI-Beschleuniger Microsoft Azure Maia 200 im Vergleich | ||||
| Anbieter | Microsoft Azure | Microsoft Azure | Amazon AWS | Google Cloud |
| KI-Beschleuniger | Maia 200 | Maia 100 | Trainium 3 | TPU v7 |
| Rechenleistung BF16 | 1268 TFlops | 800 TFlops | 671 TFlops | 2307 TFlops |
| Rechenleistung FP8 | 5072 TFlops | k.A. | 2517 TFlops | 4614 TFlops |
| Rechenleistung FP4 | 10145 TFlops | k.A. | 2517 TFlops | – |
| TDP (geschätzt) | 880 W | 500 W | 700 W | 1000 W |
| RAM | 216 GByte HBM3E | 64 GByte HBM2E | 144 GByte HBM3E | 192 GByte HBM3E |
| RAM-Transferrate | 7 TByte/s | 1,8 TByte/s | 4,9 TByte/s | 7,4 TByte/s |
| Interconnect | 1,4 TByte/s | 0,6 TByte/s | 1,2 TByte/s | 0,6 TByte/s |
| Fertigungstechnik | TSMC N3P | TSMC N5 | TSMC N3P | TSMC N3P |
| Chipfläche | k.A. | 820 mm² | k.A. | k.A. |
| Angaben von Microsoft Azure, zu Maia 100: Microsoft Azure von der Hot Chips 2024 | ||||
Die zeigt, dass der Maia 200 vor allem beim Inferencing von großen KI-Modellen mit FP4-Gewichten sehr hohe Rechenleistung liefert. Dabei bleibt die Leistungsaufnahme moderat, wobei nicht ganz klar ist, ob sich diese nur auf den KI-Beschleuniger bezieht oder ob auch das High Bandwidth Memory (HBM3E) und die 28 Ethernetports mit je 400 Gbit/s eingerechnet sind.
Auch der Vergleich des ausdrücklich für Inferencing ausgelegten Maia 200 mit dem AWS Trainium 3 – der vor allem aufs Training zielt – wirkt ungenau. Die Daten des seit 2024 in Microsoft Azure buchbaren Maia 100 haben wir ergänzt.
Nvidias aktueller GB200 (Grace Blackwell Superchip) schafft mit Sparsity bei FP4 bis zu 20.000 TFlops, besteht aber auch aus zwei KI-Chips und ist mit rund 1,2 kW Leistung spezifiziert.
Für riesige Modelle
Microsoft Azure betont, dass sich bis zu 6144 Maia 200 zusammenschalten lassen, um auch sehr große KI-Modelle zu verarbeiten. Das Microsoft Superintelligence Team nutze Maia 200 bereits, um synthetische Daten zu generieren sowie für Reinforcement Learning.
Ebenso wie Amazon und Google entwickelt Microsoft seine KI-Beschleuniger nicht komplett selbst. Branchenkenner gehen davon aus, dass Microsoft die Firma Marvell als Entwicklungspartner für Maia bezahlt. Marvell soll auch am AWS Trainium beteiligt gewesen sein, während Google für die TPU wohl Broadcom einspannt. Der taiwanische Entwicklungsdienstleister Alchip soll ebenfalls bestimmte Chips für AWS entwickelt haben.
(ciw)