Künstliche Intelligenz
HPE: Erstes AMD-basiertes KI-Turnkey-System | heise online
HPE hat auf der jüngsten Kundenveranstaltung Discover sein erstes Turnkey-System auf Grundlage von AMDs KI-Rack-Scale-Architektur „Helios“ mit Ethernet-Scale-Up-Netzwerk angekündigt. Das System nutzt speziell entwickelte Juniper Networking-Hardware und -Software sowie Broadcoms Tomahawk-6-Netzwerkchip. Es basiert auf dem offenen UALoE-Standard (Ultra Accelerator Link over Ethernet) und die auf den ORW-Spezifikationen (Open Rack Wide) des Open Compute Project (OCP) basierende Rack-Scale-Lösung ist für optimierten Energieverbrauch, moderne Flüssigkeitskühlung und einfache Wartung ausgelegt. Damit bietet es eine Alternative zu proprietären GPU-Verbindungen wie Nvidias NVLink.
Weiterlesen nach der Anzeige
Durch die Einbindung von 72 AMD-GPUs des Typs Instinct MI455X pro Rack bietet das System eine aggregierte Scale-up-Bandbreite von 260 TByte/s und bis zu 2,9 KI-Exaflops FP4-Leistung. Dazu gehören 31 Terabyte HBM4-Speicher und eine Speicherbandbreite von 1,4 PByte/s. Ergänzt wird das durch einen neuen Scale-Up-Ethernet-Switch, der optimierte Leistung für KI-Workloads über Standard-Ethernet bietet und in Zusammenarbeit mit Broadcom entwickelt wurde. Der Switch nutzt HPEs KI-native Automatisierungs- und Qualitätssicherungsfunktionen, um den Netzwerkbetrieb zu vereinfachen und zielt auf eine schnellere Bereitstellung und Kosteneinsparungen ab. Abgerundet wird das System durch die Open-Source-Software AMD ROCm und die Netzwerktechnologie AMD Pensando.
Nutzung auch als HPC-Frontend
Laut HPE unterstützt das System vor allem den Datenverkehr für das Training von extrem großen Modellen mit Billionen an Parametern und hohem Inferenzdurchsatz. Obwohl es als Turnkey-Lösung angekündigt wurde, adressiert es nicht den Großteil der KI-Anwender – ganz im Gegenteil. „Der Einstiegspreis für Rack-Scale-Helios ist derzeit noch recht hoch, daher denke ich, dass die Akzeptanz eher auf der Seite der Modell- und Serviceprovider liegen wird“, sagt Chris Davidson, Vice President HPC und KI bei HPE. Hier sieht er eine Ergänzung der Rack-Scale-Lösung zum Super-Computing. „Das Helios-Rack könnte im HPC-Bereich eine wichtige Rolle als Frontend-System einnehmen“, so seine weitere Einschätzung der Anwendungsbreite.
Des Weiteren ist das neue Rack ein Teil der KI-Fabrik von HPE. Hierbei handelt es sich um Rechenzentren der nächsten Generation, die speziell für KI entwickelt wurden. Sie dienen als zentrale KI-Knotenpunkte mit integrierten Rechen-, Speicher- und Netzwerkressourcen, um skalierbare Höchstleistung für komplexe KI-Aufgaben zu gewährleisten. Sie sind global untereinander zu einem großen KI-Fabrik-Gitter vernetzt und bieten eine einheitliche Anwendungsumgebung.
Während das KI-Training in solchen KI-Fabriken oder auf Supercomputern zentralisiert wird, wandert die Inferenz immer näher an die Daten, also an die Edge. HPE adressiert diesen Trend mit neuen Edge-Zugangspunkten in der KI-Fabrik und dem neuen NX 301 Multiservice Edge Router. Ziel ist es, mehr Inferenz aus der Cloud an die Edge zu verlagern, um damit Latenz, Bandbreite und Kosten zu optimieren.
(fo)