Apps & Mobile Entwicklung

gpt-oss-120b und gpt-oss-20b: OpenAI gibt offene Modelle auf o4/o3-mini-Niveau frei


gpt-oss-120b und gpt-oss-20b: OpenAI gibt offene Modelle auf o4/o3-mini-Niveau frei

Bild: OpenAI

OpenAI hat mit den Sprachmodellen gpt-oss-120b und gpt-oss-20b zwei offene Modelle unter einer flexiblen Apache-2.0-Lizenz freigegeben, die in Core-Reasoning-Benchmarks nahezu Parität mit o4- und o3-mini erreichen sollen. Die Sprachmodelle sind für das Ausführen auf einer einzelnen 80-GB-GPU und Edge-Geräten mit 16 GB ausgelegt.

Die Gewichte für gpt-oss-120b und gpt-oss-20b können kostenlos auf Hugging Face heruntergeladen werden und sind in MXFP4 nativ quantisiert. Das größere Modell gpt-oss-120b ist für den Einsatz in der Cloud konzipiert und kann mit 80 GB Speicher ausgeführt werden. Das kleinere gpt-oss-20b benötigt hingegen 16 GB und ist deshalb auch für die lokale Nutzung auf Geräten wie Desktop-PCs und Smartphones geeignet.

Trainiert auf Nvidia H100

Trainiert wurden die Modelle auf Nvidias H100-GPUs. Nvidia gibt an, dass gpt-oss-120b auf einem GB200 NVL72 bis zu 1,5 Millionen Tokens pro Sekunde liefern und damit 50.000 Nutzer gleichzeitig bedienen könne. Für die lokale Nutzung des gpt-oss-20b sei die Ollama-App laut Nvidia der einfachste Weg. Nutzer können eine Leistung von bis zu 256 Tokens pro Sekunde auf einer RTX 5090 mit 32 GB erwarten. Für Ollama empfiehlt Nvidia mindestens 24 GB, grundsätzlich läuft gpt-oss-20b lokal aber ab 16 GB VRAM. Bei AMD lässt sich das gpt-oss-120b zum Beispiel mit 30 Tokens pro Sekunde auf einem Ryzen AI Max+ 395 mit 96 GB LPDDR5X ausführen, das kleinere gpt-oss-20b auf einer Radeon 9070 XT mit 16 GB VRAM.

Benchmarks auf o4- und o3-mini-Niveau

Für gpt-oss-120b gibt OpenAI an, bei Core-Reasoning-Benchmarks nahezu Parität mit o4-mini erreicht zu haben. Das Modell gpt-oss-20b liefere bei gängigen Benchmarks ähnliche Ergebnisse wie o3‑mini. Trainiert wurden sie mit den Vor- und Nachtrainingstechniken von OpenAI, dabei habe ein besonderer Schwerpunkt auf dem Reasoning gelegen. Dies sei anhand eines hochwertigen, überwiegend englischen reinen Text-Datensatzes, mit Schwerpunkt auf MINT (Mathematik, Informatik, Naturwissenschaft und Technik), Codierung und Allgemeinwissen geschehen. Das Nachtraining sei daraufhin mit einem ähnlichen Prozess wie für o4-mini erfolgt.

Benchmarks mit gpt-oss-120b und gpt-oss-20b (Bild: OpenAI)

Das gpt-oss-120b soll o3-mini übertreffen und o4-mini bei Wettbewerbscodierung (Codeforces), allgemeiner Problemlösung (MMLU und HLE) und Tool-Aufrufen (TauBench) erreichen oder übertreffen. Es erziele bei gesundheitsbezogenen Abfragen (HealthBench⁠) und in der Wettbewerbsmathematik (AIME 2024 und 2025) bessere Ergebnisse als o4-mini. Das kleinere gpt-oss-20b erreiche bei denselben Bewertungen dieselbe oder sogar eine höhere Leistung, trotz seiner geringen Größe, und war laut OpenAI in den Bereich Wettbewerbsmathematik und Gesundheit überlegen.

Sicherheit im Fokus der Veröffentlichung

Einmal veröffentlicht, können offene Sprachmodelle im Gegensatz zu ihren proprietären Gegenstücken nicht wieder zurückgezogen werden. Aufgrund der Sicherheitsanforderungen und einer weiteren Worst-Case-Feinabstimmung soll sich die Veröffentlichung der Sprachmodelle deshalb verzögert haben und der Release nicht schon wie zuvor geplant im Juli erfolgt sein.

Sobald ein offenes Modell veröffentlicht wird, können Angreifer dieses für böswillige Zwecke abstimmen, erklärt OpenAI. Diese Risiken seien von OpenAI bewertet worden, indem das Modell anhand von Biologie- und Cybersicherheitsdaten präzisiert und für jeden Bereich eine Domain-spezifische, nicht-ablehnende Version entwickelt wurde, so wie es OpenAI zufolge ein Angreifer tun würde. Tests hätten gezeigt, dass solche auf böswillige Absichten abgestimmten Modelle selbst mit äußerst umfangreicher Feinabstimmung, die den Trainingsstapel von OpenAI nutzten, nicht in der Lage waren, hohe Fähigkeitslevels gemäß des Preparedness Framework von OpenAI⁠ zu erreichen.



Source link

Beliebt

Die mobile Version verlassen