Künstliche Intelligenz
Open Compute: Neue Hardware-Konzepte für KI-Rechenzentren
Um dieser Entwicklung Rechnung zu tragen, muss sich die Art und Weise, wie Rechenzentrums-Hardware entwickelt und produziert wird, grundlegend ändern. Dabei konzentriert sich das OCP auf folgende vier Bereiche:
– Stromversorgung: Bei der Entwicklung und Nutzung von KI-Modellen kommen in der Regel spezialisierte KI-Beschleuniger wie AMD Instinct GPUs zum Einsatz. Sie benötigen deutlich mehr Strom als Serverprozessoren. Während Server-CPUs wie die AMD EPYC 9005-Serie eine elektrische Leistungsaufnahme von 125 W bis 500 W aufweisen, sind es bei GPUs bis zu 1.400 W. Die Anschlussleistung pro Rack im Rechenzentrum steigt dadurch von 10 bis 20 kW auf über 100 kW. Künftig könnte sie sogar bis zu einem MW betragen.
– Kühlung: Aufgrund der erhöhten Leistungsdichte müssen KI-Racks in der Regel flüssigkeitsgekühlt werden. Das OCP-Teilprojekt „Coolant Distribution Unit“ (CDU) befasst sich mit der Integration von Flüssigkeitskühlsystemen in bestehende und neue Rechenzentren. Die Teilnehmer entwickeln Lösungen, Leitfäden und Referenzdesigns, die die Integration von CDUs erleichtern und verbessern sollen.
– Statik und Platzbedarf: Hochleistungsfähige KI-Systeme sind deutlich größer und schwerer als traditionelle Rechen- oder Speicher-Racks. Sie sind daher oft nicht mehr zum herkömmlichen Rechenzentrumsdesign kompatibel. Das OCP will deshalb wichtige Parameter wie Gangbreiten, Rack-Abmessungen und Bodentragfähigkeit standardisieren, um kostspielige Nachrüstungen in neuen Rechenzentren zu vermeiden. Langfristig sollen so vollständig kompatible Racks entstehen, die beliebig austauschbar sind.
– Überwachung und Steuerung: KI-Rechenzentren bestehen aus hochgradig vernetzten Hochleistungskomponenten. Schon kleine Störungen, unbemerkte Sicherheitslücken oder Konfigurationsfehler können zu gravierenden Systemausfällen führen. Die Überwachung und Steuerung der komplexen Infrastrukturen stellt IT-Verantwortliche daher vor große Herausforderungen. Das OCP will deshalb Standardprotokolle für die Übermittlung und Auswertung von Telemetriedaten entwickeln, die das Management von KI-Rechenzentren erleichtern und verbessern. Langfristig sollen autonome Steuerungssysteme zum Einsatz kommen, die eigenständig alle Systeme verwalten, deren Leistung optimieren und Probleme selbständig beheben können.