Entwicklung & Code

Google veröffentlicht Magika 1.0 zur KI-gestützten Dateityp-Erkennung


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Die erste stabile Version von Googles Open-Source-Werkzeugs Magika zur KI-gestützten Dateityp-Erkennung liegt vor. Die Anwendung wurde für Version 1.0 in Rust neu entwickelt und unterstützt mehr als 200 verschiedene Dateitypen – doppelt so viele wie in der Alpha-Version vom vergangenen Jahr.

Weiterlesen nach der Anzeige

Die Neuentwicklung in Rust sorgt laut Google für deutliche Performance-Verbesserungen. Auf einem MacBook Pro mit M4-Chip verarbeite Magika knapp 1000 Dateien pro Sekunde. Das Tool nutzt die ONNX Runtime für schnelle KI-Inferenz und Tokio für asynchrone Parallelverarbeitung. Neben dem neuen nativen Client für die Kommandozeile stehen außerdem Module für Python und TypeScript zur Verfügung.

Die erweiterte Typerkennung deckt auch spezialisierte Formate aus verschiedenen Bereichen ab: Data-Science-Formate wie Jupyter Notebooks, NumPy-Arrays oder PyTorch-Modelle gehören ebenso dazu wie moderne Programmiersprachen (Swift, Kotlin, TypeScript, Dart, Solidity, Zig) und DevOps-Konfigurationsdateien (Dockerfiles, TOML, HashiCorp HCL). Magika kann zudem genauer zwischen ähnlichen Formaten unterscheiden – etwa zwischen JSON und JSONL oder zwischen C- und C++-Code.

Für das Training des erweiterten Modells musste Google nach eigenen Angaben zwei Herausforderungen bewältigen: Der Trainingsdatensatz wuchs auf über 3 Terabyte an, was den Einsatz der hauseigenen SedPack-Bibliothek zum effizienten Streaming erforderte. Für seltene oder spezialisierte Dateitypen, von denen nicht genügend reale Beispiele verfügbar waren, setzte das Unternehmen auf generative KI: Googles Gemini-Modell erzeugte synthetische Trainingsdaten durch Übersetzung von Code und strukturierten Dateien zwischen verschiedenen Formaten.

Magika lässt sich auf Linux, macOS und Windows einrichten. Ferner können Entwickler das Tool als Bibliothek in Python-, TypeScript- oder Rust-Projekte integrieren. Laut Google verzeichnet das Projekt seit der Alpha-Version über eine Million Downloads pro Monat.


(fo)



Source link

Beliebt

Die mobile Version verlassen