Künstliche Intelligenz
Nvidias RTX 5090 und RTX Pro 6000 verursachen Bug bei Virtualisierung
Die GPUs GeForce RTX 5090 und RTX Pro 6000 aus Nvidias aktueller Blackwell-Generation führen bei Virtualisierungen offenbar zu einem Bug, der sogar einen Neustart des Host-Systems benötigt, damit diese wieder korrekt vom System erkannt werden. Konkret bleiben die GPUs hängen, wenn die virtuellen Maschinen resettet werden.
Anstatt dann in einen fehlerfreien Zustand zurückzukehren, reagiert die GPU nicht. Als Fehlermeldung gibt der Kernel zurück: „not ready 65535ms after FLR; giving up“. Ein Function-Level Reset (FLR) setzt per PCI-Express angebundene Geräte wie eine Grafikkarte zurück. Dies ist normalerweise ein Standardvorgang, wenn Passthrough-Geräte neu zugewiesen werden. Es fällt auf, dass die Karte auch für lspci unlesbar wird: „unknown header type 7f“.
Wer hat den Bug entdeckt?
Den Bug hat der GPU-Cloudanbieter CloudRift entdeckt, der ihn gleich auf mehreren Blackwell-Systemen reproduzieren konnte. Für Hinweise, die zur Ursache oder Lösung des Problems führen, bietet CloudRift mittlerweile eine Belohnung von bis zu 1000 US-Dollar an.
Auch Privatanwender von RTX-5090-Grafikkarten konnten den Bug beobachten. So mehren sich die Einträge im Proxmox-Subreddit und der Level1Techs-Community. Interessanterweise sind keine Fehler bei Grafikkarten aus der Vorgängergeneration wie der GeForce RTX 4090 bekannt. Das lässt darauf schließen, dass dieser Bug auf die Blackwell-Familie beschränkt ist. Nvidia selbst hat sich zu dem Fehler bisher nicht geäußert.
(gho)