Künstliche Intelligenz
Lokale KI-Modelle sind jetzt brauchbar (und auf dieser Hardware laufen sie)
Statt Prompts auf US-Server zu posaunen, kann man KI-Modelle auch auf eigener Hardware laufen lassen: Das ist nicht nur besser für die Privatsphäre, sondern macht auch unabhängiger von den Launen der KI-Anbieter (die gerne mal liebgewonnene Modelle durch andere austauschen). Die Frage ist nur: Welche Modelle sind brauchbare? Welche Hardware braucht man dafür? Diese Fragen versucht c’t 3003 in einem ausführlichen Video zu beantworten.
Weiterlesen nach der Anzeige
Transkript des Videos
(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)
Guckt mal hier, hier lasse ich mir gerade was von einem KI-Modell coden – in irrsinniger Geschwindigkeit. Das Beste: Das passiert alles lokal auf meinem Rechner, und das Ergebnis ist manchmal sogar besser als das, was die großen kommerziellen Anbieter wie ChatGPT von OpenAI oder Claude liefern. Naja, okay, die Betonung liegt auf manchmal, aber ich war ehrlich gesagt wirklich erstaunt, wie sich die lokalen Modelle entwickelt haben.
In diesem Video, das sich auch an Leute richtet, die noch nicht so viel Ahnung von lokaler KI haben, erkläre ich euch: Was braucht man für einen Rechner dafür, was braucht man für Software dafür und vor allem, welche KI-Modelle nimmt man am besten? Ja, NVIDIAs DGX Spark kommt auch vor – auch wenn ich davon bislang ziemlich enttäuscht bin. Bleibt dran.
Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei…
Okay, lokale KI-Modelle – das ist bei euch ein Riesenthema, kann ich nicht anders sagen. Ich krieg da viel Feedback von euch, auch übrigens schon öfter in der echten Welt, dass ihr mich darauf ansprecht. Eine häufige Frage ist: Was brauche ich dafür für einen Rechner, was kaufe ich mir am besten? Könnt ihr da mal einen Rechner empfehlen? Welche Modelle taugen überhaupt was? Sind die inzwischen so gut wie ChatGPT oder Claude?
Das alles versuche ich in diesem Video zu beantworten – und ich sag mal, das wird ein heißer Ritt. Ich hoffe, dass ich euch nicht alle nach und nach verliere, ja, weil da gibt es schon viel zu besprechen. Zumindest ich finde es alles richtig interessant – und das ist ja die Hauptsache, wenn man so ein Video macht.
Weiterlesen nach der Anzeige
Fangen wir mal mit dem optimalen Rechner dafür an. Und das ist tatsächlich eine Frage, die in der c’t-Redaktion, und ich übertreibe nicht, zu stunden- und sogar tagelangen Diskussionen geführt hat. Das Problem ist halt: KI ist nicht gleich KI – und man kann den optimalen Rechner eben deswegen schlecht verallgemeinern.
Wollt ihr einfach ein lokales LLM als Chatbot mit LM Studio anzapfen, wollt ihr Bilder, Videos oder Musik generieren, wollt ihr Audio mit Whisper transkribieren, wollt ihr vielleicht sogar Modelle finetunen – das sind alles unterschiedliche Nutzungsszenarien. Ich weiß, dass das schwierig ist, aber ich versuche das jetzt trotzdem mal mit einer Empfehlung.
Fangen wir mal an mit lokalen KI-Modellen, die man mit LM Studio zum Beispiel anzapft, um so einen lokalen Chatbot hinzukriegen. Viele nennen diese Modelle ja Open-Source-Modelle, aber das ist mindestens irreführend – ich würde sogar sagen falsch. Wenn die wirklich Open Source wären, dann müssten da ja auch Informationen darüber drin sein, wie genau die trainiert wurden. Also eigentlich müsste es dann zumindest Zugriff auf die Trainingsdaten geben – und das ist so gut wie nie der Fall.
Deshalb ist es präziser, Open Weights zu sagen statt Open Source. Das heißt, dass man die Parameter des Modells runterladen und auf eigener Hardware laufen lassen kann. Also wenn wir hier von lokalen LLMs oder lokalen Modellen reden, dann sind das Open-Weights-Modelle. Aber „lokales Modell“ finde ich eigentlich am einfachsten, weil das aussagt: Kann ich auf eigener Hardware mitmachen, was ich will.
Hardware: Worauf muss man achten, wenn man KI-Modelle laufen lassen will?
Ja, also jedenfalls: Wenn ihr damit euer eigenes ChatGPT bauen wollt – was nehmt ihr dann für Hardware? Da würde ich jetzt erst mal ganz kurz diese Tabelle hier einblenden, die ich gerade zusammengestellt habe. Die ist nämlich dafür extrem hilfreich.
Beim Abzapfen von LLMs – die KI-Crowd nennt das ja Inferenz – ist wirklich zum allergrößten Teil die Speicher-Datentransferrate relevant. Das heißt: Habt ihr eine Grafikkarte mit schnellem Speicher und passt das Sprachmodell da komplett rein, dann läuft das schnell.
Hier, guck mal: Das ist Mistral Small 3.2, komplett in meiner RTX 4090-Grafikkarte – bäm, über 40 Token die Sekunde. Ja, GDDR6X-Speicher mit ungefähr einem Terabyte Datentransferrate pro Sekunde, das ist schnell. Wenn ich das gleiche Modell nur auf meiner CPU laufen lasse, die auch echt nicht langsam ist mit ihren 16 Kernen, die aber dafür nur DDR5‑5600‑Speicher zur Verfügung hat, mit nur 90 Gigabyte Datentransferrate, ja – dann kriege ich nur drei Token pro Sekunde. Ich bin selbst echt überrascht, wie das skaliert.
Denn 1000 Gigabyte sind ja ungefähr das Elffache von 90 Gigabyte, und 40 Token pro Sekunde sind das 13-Fache von drei Token. Natürlich funktioniert das in der Praxis nicht ganz exakt, weil da noch mehr Faktoren eine Rolle spielen. Aber grob gesagt, kann man das schon so sagen.
Das Problem ist halt nur: Wenn ich eine einzelne Grafikkarte haben will mit diesem schnellen Speicher im Preisbereich unter mehreren Zehntausend Euro, dann bekomme ich zurzeit nur die RTX 5090 mit 32 Gigabyte Speicher – zwar GDDR7, superschnell, aber eben nur 32 Gigabyte.
Das heißt: Wenn ich Sprachmodelle schnell abzapfen will, dann kann ich nur Sprachmodelle benutzen, die da reinpassen. Und zum Beispiel das echt richtig gute GPT‑OSS 120B von OpenAI– also mit 120 Milliarden Parametern – braucht 63 Gigabyte Speicher. Vielleicht einfach zwei 5090er kaufen? Nee, geht nicht, denn Nvidia unterstützt NVLink nicht mehr. Also die Technik zum Bündeln von mehreren Grafikkarten – das können nur Karten bis einschließlich der 3090er‑Generation.
Und das ist auch der Grund, warum sich einige KI-Freaks Workstation-Mainboards kaufen und da dann zum Beispiel drei gebrauchte 3090er reintun. Die gibt’s auf dem Gebrauchtmarkt so ab 700 Euro das Stück. Ja, das ist aufwendig zu kühlen, aber das knallt ganz schön was weg in Sachen Token pro Sekunde – und unterstützt halt Sprachmodelle bis 72 Gigabyte Größe. (Die 3090 hat 24 Gigabyte pro Stück, also 3 × 24 = 72 Gigabyte.)
Solche Rigs schaffen mit GPT‑OSS 120B laut etlicher Quellen im Netz deutlich über 50 Token pro Sekunde, zum Teil noch viel mehr – also wirklich gute Werte. Wenn ihr jetzt die aktuellen News verfolgt und sagt: Hä, warum denn so viel Aufwand? Man kann inzwischen doch für ungefähr 4000 Euro eine Nvidia DGX Spark kaufen – die hat doch 128 Gigabyte schnellen Unified‑Speicher. Da wird ja gar nicht zwischen normalem RAM und schnellem Video‑RAM unterschieden, übrigens wie bei Apple auch. Und die ist ja extra für KI‑Workloads gemacht – die müsste doch super damit funktionieren, oder?
Ich habe das Teil zwar selbst noch nicht testen können, aber dafür viele Tests im Netz gesehen. Und da kommen die Leute mit dem GPT‑OSS 120B maximal auf 43 Token/Sekunde, zum Teil noch deutlich weniger. Ich habe euch mal ein paar Tests verlinkt – das ist also deutlich weniger als die selbstgebauten Kisten mit mehreren 3090ern.
Aber nochmal der deutliche Disclaimer: Die Benchmarks hier sind nicht von uns – also alles mit Vorsicht genießen. Was aber definitiv sicher ist: Die DGX Spark hat eine deutlich geringere Leistungsaufnahme als solche Rechner mit mehreren 3090ern.
Was ich vor allem krass finde: Rechner mit AMD Strix Halo, also Ryzen AI Max+ 395. Die gibt’s so ab 1800 Euro, und die schaffen ungefähr genauso viele Token/Sekunde wie eine DGX Spark – nur halt deutlich günstiger.
Ich habe ja noch meinen Framework‑Desktop mit AI Max Plus+ stehen, und damit habe ich in LLM Studio ungefähr 36 Token/Sekunde mit GPT‑OSS 120B gemessen – zumindest, wenn ich manuell alles auf die GPU gemappt habe.
Ach so, ich muss hier mal kurz einschieben: Wir sprechen hier nur von den Decode‑Werten, also der reinen Ausgabe der LLMs. Beim sogenannten Prefill, in dem das LLM den Prompt und den Kontext liest und daraus den internen Speicher – also den KV‑Cache – baut, da ist Rechenkraft, also Compute, relevant. Und da ist die DGX Spark deutlich schneller als die AMD‑Konkurrenz. Das will ich der Vollständigkeit halber gerne noch sagen.
Aber für so ein normales LLM‑Anzapfen kommt man günstiger bei rum – zum Beispiel mit Apple‑Rechnern. Macs sind auch eine Alternative: Da gibt’s Modelle mit 120 Gigabyte Unified‑schnellem Speicher. Wird natürlich dann schnell teuer.
Ich habe GPT‑OSS 120B gerade mal auf dem MacBook Pro mit M3 Max laufen lassen – der ist über zweieinhalb Jahre alt und schafft aber 40 Token/Sekunde, also schon ungefähr in der Range wie die DGX Spark – auf dem Notebook.
Was ich bei meinem eigenen Rechner gemacht habe: Ich will ja auch Linux nutzen, und so habe ich mir für ungefähr 500 Euro zweimal 64 Gigabyte normalen DDR5‑Speicher gekauft und den da einfach reingeworfen – also in den Rechner mit meiner RTX 4090. Und darauf schaffe ich mit GPT‑OSS 120B ziemlich annehmbare 14 Token/Sekunde. Damit reiße ich jetzt keine Bäume aus, aber ich kriege halt ein 63‑Gigabyte‑großes Sprachmodell zum Laufen – auf einem Rechner mit nur 24 Gigabyte Grafikspeicher. Für alle, die es genau wissen wollen: Ich habe den GPU‑Offload auf 13 von 36 eingestellt.
Was ich euch auf jeden Fall generell als Empfehlung sagen kann: Checkt, welche Sprachmodelle ihr genau laufen lassen wollt. Wenn die klein sind, also sagen wir mal kleiner als 24 Gigabyte, dann reichen natürlich 24 Gigabyte schneller Grafikspeicher – und dann reicht auch z. B. eine 3090 oder 4090.
Also, wenn ihr KI machen wollt und ihr eine gebrauchte 3090 auftreiben könnt, dann seid ihr auf jeden Fall ziemlich gut bedient. Die Geschwindigkeitsvorteile der beiden nachfolgenden Generationen sind bei KI nicht so richtig groß.
Die ganzen Textsachen – also z. B. so ein lokaler Chatbot mit LM Studio – funktionieren aber auch gut mit AMD‑Grafikkarten. Da könntet ihr auch zuschlagen. Oder ihr nehmt halt einen Mac; die haben auch schnellen gemeinsamen Speicher, je nach Modell – seht ihr hier in der Tabelle nochmal.
Aber für andere KI‑Anwendungen als LLMs laufen zu lassen, z. B. mit LLM Studio, also sowas wie Comfy UI zum Bilder‑ oder Video‑Generieren, da seid ihr vor allem mit Nvidia‑Grafikkarten am besten bedient, weil die halt CUDA können. Diese Programmierschnittstelle wird von vielen KI‑Programmen nach wie vor hauptsächlich genutzt. Immer mehr Programme wie eben LLM Studio beherrschen aber auch MLX – das ist das Apple‑Pendant zu CUDA – oder halt ROCm, das ist die AMD‑Variante, aber eben: viele Programme nicht. Die können nur CUDA.
Das heißt: Wenn ihr viel experimentieren wollt mit unterschiedlichen Sachen, muss ich Nvidia empfehlen. Aber geht zum Beispiel auch mit gebrauchten Nvidia‑Karten – eben der 3090er‑Empfehlung.
Ganz kurz zwischengefragt: Interessiert euch, dass wir mal so ein Multi‑GPU‑System mit KI mit gebrauchten 3090ern aufbauen? Ist halt ziemlich viel Aufwand, aber wenn das Interesse bei euch groß genug ist, dann würden wir das schon machen – also, ich hätte Bock. Wenn’s keinen interessiert, natürlich nicht.
Software: Welche lokalen Sprachmodelle können was?
So, das war jetzt erst mal zur Hardware. Jetzt kommen die lokal laufenden Sprachmodelle. Was nimmt man da denn so? Sind die inzwischen so gut wie ChatGPT?
Lange war die Antwort nein – und ich meine wirklich deutlich, deutlich schlechter. Man kann auch sagen: unbrauchbar.
Hier mal so ein älteres Modell auf die Frage „Was ist das c’t‑Magazin?“
Antwort: „Der c’t‑Magazin ist ein Zeitschrift für alles, was heute im Thema ist.
Das c’t‑Magazin ist ein wichtiges Leitfadenspiel, das alles ausprobiert, um sich mit den Menschen in Beziehung zu setzen und das ganze Leben damit zu verbinden.“ Also einfach – man kann es nicht anders sagen – Kauderwelsch.
Was ich auch sehr schön finde, ist hier die Antwort auf diese Rechenaufgabe: „Viel“ und dann so … „Nee, vier.“
Aber das waren wirklich alte Modelle, die ersten.
Dann kam Anfang des Jahres DeepSeek aus China – und das war wirklich das erste lokal betreibbare LLM, das mit der US‑Konkurrenz in der Cloud mithalten konnte. Allerdings – und das war das Problem – die vollständige DeepSeek‑Variante braucht über 700 Gigabyte Speicher, möglichst extrem schnellen Speicher, also wie man es halt mit Profi‑Rechenzentrums‑GPUs hinkriegt für viele, viele Zehn‑ oder sogar Hunderttausend Euro.
Aber jetzt sind ja wieder ein paar Monate vergangen, und ich muss sagen: Ich bin erstaunt, wie gut inzwischen auch ganz kleine Modelle performen. Also Modelle, die so gut wie jeder Rechner oder sogar Smartphones laufen lassen können – vor allem beim Coding.
Ich habe ja gerade schon ein paarmal LM Studio erwähnt – das habe ich in diesem Video auch nur verwendet.
Das gibt es für Linux, Windows und macOS, und das ist aktuell meine Lieblingsplattform zum Anzapfen von Sprachmodellen.
Ich habe früher immer Ollama verwendet, aber ich mag LLM Studio inzwischen lieber – einmal, weil man bei LM Studio viel einfacher die ganzen Parameter drumherum einstellen kann, also zum Beispiel, wie viel man auf die Grafikkarte auslagert, wie groß das Kontextfenster ist – also quasi das Kurzzeitgedächtnis – und weil Ollama mit so komischen Sachen wie Cloud‑Unterstützung und Accounts angefangen hat.
Und ja, bei lokaler KI geht es ja gerade darum, dass man sich eben nicht an Cloud‑Anbieter hängt. Ich will Ollama jetzt auch nicht schlechtreden. Wenn ihr das lieber benutzt, könnt ihr das natürlich gerne machen – also kein Ding.
Ich habe auf jeden Fall einfach LM Studio installiert, dann hier unter „Entdecken“ ein paar Sprachmodelle installiert und dann im Chat oben das gewünschte Modell ausgewählt – und dann einfach gepromptet: „Ich brauche eine Website, die die Uhrzeit in Hannover, New York und Tokio hübsch darstellt. Gib mir was, was ich einfach in einer HTML‑Datei copy‑pasten kann.“ Das Ganze auf Englisch, weil ich gerade bei kleineren Modellen nicht so sicher bin, welche Deutsch‑Fähigkeiten die so haben – und es soll ja fair und gerecht zugehen.
Ja, und so sah das Ergebnis bei den großen, teuren Cloud‑Sprachmodellen aus – also ChatGPT mit GPT‑5 Thinking (mit Abo), Gemini 2.5 Flash und Claude Sonnet 4.5. Und das hier ist von Qwen 3 4B 2507. Und jetzt mal kurz innehalten: Dieses Sprachmodell ist läppische 2,5 Gigabyte groß – das läuft also wirklich auf jeder Kartoffel – und es produziert meiner Meinung nach das visuell am besten gelungene Ergebnis.
Seht ihr, wie der Sternenhintergrund so ein bisschen animiert ist? Richtig nice! Okay, den Sternenhintergrund habe ich mit einem zweiten Prompt nachträglich hinzugefügt, aber das hat wunderbar funktioniert – was ja nicht immer der Fall ist. Allerdings habe ich dann gemerkt, dass die Uhrzeit nicht stimmt, aber das konnte ich im Quellcode dann selbst hinbiegen.
Ich finde auf jeden Fall Qwen 3 4B für die Größe wirklich richtig gut. Ist übrigens von Alibaba in China. Und das Ding läuft echt in einer beeindruckenden Geschwindigkeit, weil es so klein ist – weil es halt locker in meinen 24‑Gigabyte‑Grafikspeicher passt. Da kann man auch den Kontext, also das Kurzzeitgedächtnis, richtig hochziehen, und dann kann man da ganz gute Sachen mitmachen.
Andere lokale Open‑Weights‑Sprachmodelle haben mein Uhrzeit‑HTML übrigens auch ganz gut hinbekommen – das ist GPT‑OSS von OpenAI mit 20 Milliarden Parametern, das mit 120 Milliarden Parametern und Mistral Small 3.2 mit 24 Milliarden Parametern.
Wenn ihr gerade genau auf meine Liste mit den Sprachmodellen geguckt habt, dann habt ihr vielleicht gesehen, dass die Zahl der Parameter nicht mit der Gigabyte‑Angabe des Modells korreliert. Hier zum Beispiel: Mistral Small 3.2 hat 24 Milliarden Parameter (die Parameter seht ihr immer in dieser Spalte hier – also 24B steht da für „Billion“ = Milliarden). Das Modell ist aber über ein Gigabyte größer als Qwen 3 Coder 30B – also das mit 30 Milliarden Parametern. Ihr denkt euch vielleicht: Hä, wie kann das denn sein? Das hat mit der sogenannten Quantisierung zu tun.
Statt zum Beispiel jeden Parameter in 32‑Bit‑Gleitkommagenauigkeit zu speichern – was ja in unserem Fall 30 Milliarden × 32 Bit bedeutet – kann man das Ganze auch quantisieren, also vereinfacht gesagt runden: z. B. auf 8 oder sogar 4‑Bit‑Ganzzahlen.
Das hat viele Vorteile – neben weniger Speicherplatz natürlich auch höhere Geschwindigkeit. Aber wenn man zu aggressiv rundet, dann arbeitet das Sprachmodell schlechter. Da wird mit sogenannten K‑Quants gearbeitet, aber das müsst ihr in der Praxis gar nicht wissen.
Ihr müsst nur verstehen, dass es viele Modelle eben in unterschiedlichen Quantisierungsstufen gibt – ihr wisst, was diese Codes da bedeuten.
Guckt mal hier, zum Beispiel bei Qwen 3 Coder 30B: Wenn ihr da in LM Studio auf „Download Options“ klickt, seht ihr die vier Quantisierungsstufen: 3‑Bit, 4‑Bit, 6‑Bit, 8‑Bit. Wenn ihr einen Mac habt, seht ihr sogar noch mehr – nämlich die für MLX optimierten Versionen zusätzlich. Aber ihr sucht auf jeden Fall das aus, was am besten in euren GPU‑Speicher passt. Da zeigt euch LLM Studio auch Icons an – also hier zum Beispiel „vollständiges GPU‑Offloading möglich“ oder eben nicht. Wenn es nicht möglich ist, dann wird’s langsam – geht aber auch.
Wenn ihr dann im Chatfenster das Modell auswählt, sollte LLM Studio direkt automatisch den besten GPU‑Offload einstellen – also wie viel vom Sprachmodell in euren GPU‑Speicher geladen wird. Außerdem könnt ihr das Kontextfenster (oder wie LLM Studio anzeigt: die Kontextlänge) einstellen. Das bedeutet, wie viele Tokens – ein Token ist ungefähr eine Silbe – das Sprachmodell im Kurzzeitgedächtnis halten kann.
Das ist wichtig, wenn ihr mit viel Code herumhantiert, aber auch für RAG – Retrieval Augmented Generation. Also das Generieren ergänzt durch Abrufen, z. B. Abrufen von Informationen. Das klingt jetzt kompliziert, ist aber in der Praxis total super und praktisch. Und es klappt inzwischen auch wirklich gut mit den aktuellen lokalen Modellen.
Ein Beispiel: Ihr habt ein unübersichtliches PDF und wollt da eine bestimmte Info draus haben, aber keine Lust, euch da durchzuquälen.
Dann werft ihr das einfach auf LM Studio. Ich habe hier mal das Programm einer Tagung, wo ich vor vielen Jahren mal einen Vortrag gehalten habe. Dann kann ich einfach schreiben: „Wann findet der Vortrag von Jan-Keno Janssen statt?“ – und dann kriege ich super schnell eine korrekte Antwort. Man kann aber natürlich auch aufwendigere Dinge tun. Zum Beispiel: „Guck dir mal die Vornamen aller Personen an, die da sprechen, und rechne mit ihnen das Geschlechterverhältnis aus.“ Ja, zack – funktioniert. Hätte manuell ewig gedauert.
Klar, das können ChatGPT & Co. in der Cloud auch – aber man will ja vielleicht PDFs analysieren, die man nicht unbedingt im Internet herumschicken will, nicht an OpenAI in die USA. Mit lokalen Modellen bleibt das eben alles lokal – und wenn es auf die Grafikkarte passt, geht’s richtig schnell.
Der Nachteil allerdings: Weil die Modelle eben lokal laufen, können die nicht out of the box im Netz was suchen.
Das geht mit MCP – Model Context Protocol. Darüber haben wir schon ein eigenes Video gemacht, das würde jetzt zu weit führen.
Es ist halt so, dass die kommerziellen Cloud‑LLMs wie ChatGPT, Claude und Gemini inzwischen standardmäßig selbst im Netz suchen.
Das machen unsere lokalen Modelle hier nicht. Deshalb geben die auch auf viele Fragen schlechte oder falsche Antworten.
Als ich zum Beispiel gefragt habe: „Was ist das c’t‑Magazin?“, kam bei einigen eine korrekte Antwort, z. B. bei Mistral Small 3.2 aus Frankreich – aber oft auch richtiger Schrott. Das schon ältere Llama 3.23B sagt zum Beispiel, dass „c’t“ „Cthulu Times“ sei. Okay, ja … mhm.
Manchmal sieht die Antwort auf den ersten Blick okay aus, aber dann steht da auf einmal so was wie: „c’t gehört zur Famitsu Publishing Group.“
Okay … Also als lokale Wikipedia, wenn man gerade kein Netz hat, sollte man auf jeden Fall nicht diese kleinen Modelle verwenden. Aber zum Beispiel das GPT‑OSS 120B, von dem hier schon öfter die Rede war, produziert schon ganz gute Fakten.
Wenn ihr in LLM Studio eure installierten Modelle anschaut, könnt ihr mit diesem Ordnersymbol nicht nur die Zahl der Parameter oder Quantisierung sehen, sondern auch Zusatz‑Icons: Der Hammer bedeutet z. B. Tool Use, also Werkzeugbenutzung. Das kann also mit MCP umgehen, z. B. Browser bedienen. (Wie gesagt – eigenes Video dazu.) Und es gibt auch das gelbe Auge: Das bedeutet Vision, also dass das Modell Bilder verstehen kann.
Da war ich echt überrascht, wie gut das klappt. Ich habe z. B. dem nur 12‑Milliarden‑Parameter‑großen Gemma 3 von Google dieses Thumbnail hier gegeben und gesagt: „Roaste den Typen da drauf mal.“ Und dann sagt Gemma 3 sinngemäß: „Schau dir diesen Mann an – er sieht aus wie ein Teddybär, der versucht, einen Gaming‑Stream zu moderieren. In diesem Bart könnte er locker drei Hamster unterbringen …“ usw.
Also, man kann mit diesen Modellen auch sinnvollere Sachen machen – z. B. sie in Visual Studio Code einbinden, etwa mit der Software Continue oder Cline. Da muss man einfach in VS Code LLM Studio als Provider auswählen und kann dann ein Modell da einladen – und das hilft einem beim Programmieren.
Wenn ihr bis jetzt durchgehalten habt, dann habt ihr vielleicht gemerkt, dass das ein riesiges Thema ist, und ich könnte da stundenlang drüber sprechen. Aber das war jetzt, glaube ich, schon fast zu viel Inhalt für ein Video. Ich sehe das mal als Versuch. Ich gucke, wie das so ankommt bei euch – und wenn ihr da mehr drüber wissen wollt, dann mache ich zu den einzelnen Themen noch einzelne Videos.
Also eben sowas wie: selbstgebauter KI‑Server mit mehreren gebrauchten RTX 3090ern, oder lokale LLMs in einen Code‑Editor einbauen, oder einen eigenen Agenten bauen, der lokal läuft und Webseiten bedienen kann, oder auch, wie man LLMs finetuned. Oder, oder, oder – da gibt’s so viele Themen. Sagt ihr mir einfach, was ihr sehen wollt – und dann machen wir das. Tschüss.
c’t 3003 ist der YouTube-Channel von c’t. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen, Lukas Rumpler, Sahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.
(jkj)
Künstliche Intelligenz
Trotz Chipkrise: Vorerst keine Produktionsstopps bei VW
Bei Volkswagen gibt es in der nächsten Woche trotz der Chipkrise keine Produktionsausfälle. Nach heutigem Stand sei die Fahrzeug-Produktion an den deutschen Standorten in der kommenden Woche abgesichert, teilte der Konzern mit.
Weiterlesen nach der Anzeige
„Die Lieferengpässe beim niederländischen Chip-Hersteller Nexperia haben vorerst weiterhin keine Auswirkungen auf die Produktion in den fahrzeugbauenden Werken der Marke Volkswagen in Deutschland“, so ein Sprecher. „Auch in allen anderen deutschen Produktionsstandorten des Volkswagen-Konzerns ist die Fahrweise in der kommenden Woche nach heutigem Stand abgesichert“. Das gelte auch für die Töchter Audi, Porsche und VW Nutzfahrzeuge.
Auch Seat und Skoda laufen weiter
Das Gleiche gelte ebenso für die Werke von Skoda und Seat in Tschechien und Spanien, fügte ein Sprecher auf Nachfrage hinzu. Auch die konzerneigenen Komponentenwerke in Deutschland würden kommende Woche normal produzieren.
Wie es im November weitergehe, sei aber noch nicht abzuschätzen. „Vor dem Hintergrund der dynamischen Lage können kurzfristige Auswirkungen auf das Produktionsnetzwerk des Volkswagen-Konzerns jedoch weiterhin nicht grundsätzlich ausgeschlossen werden“, so der Sprecher.
Noch am Mittwoch hatte VW vor möglichen Produktionsausfällen gewarnt, die auch kurzfristig möglich seien. Grund sind Lieferprobleme beim Chip-Hersteller Nexperia. „Vor dem Hintergrund der dynamischen Lage können Auswirkungen auf die Produktion kurzfristig jedoch nicht ausgeschlossen werden“, hatte VW seinerzeit in einer internen Mitteilung informiert.
Suche nach Ersatzlieferanten
Markenproduktionsvorstand Christian Vollmer hatte sich am Donnerstag dann aber zuversichtlich gezeigt, Produktionsstopps noch abzuwenden. Derzeit werde mit möglichen Ersatzlieferanten verhandelt, die den Lieferausfall der Nexperia-Halbleiter ausgleichen könnte, sagte er dem „Handelsblatt“. VW stehe dazu in engem Austausch mit potenziellen Lieferanten, fügte ein Sprecher hinzu.
Weiterlesen nach der Anzeige
Bei Nexperia gibt es Lieferprobleme, nachdem die niederländische Regierung die Kontrolle über die von einer chinesischen Konzernmutter geführte Firma übernommen hatte. China stoppte daraufhin die Ausfuhr von Nexperia-Produkten wie Chips für die Autoindustrie. Auch andere Hersteller und Zulieferer sind betroffen. Hintergrund ist der Handelsstreit zwischen den USA und China.
(nen)
Künstliche Intelligenz
Rücknahme verwehrt: Kein Trade-in bei Apple für die Vision Pro M2
Apples neue Vision Pro mit M5-Chip ist etwas günstiger als ihr Vorgänger: 3699 Euro zahlt man nun für das Einstiegsmodell mit 256 GByte, bei der Vision Pro mit M2 wurden noch mindestens 3999 Euro fällig. Da Apple sein Headset nie über den Handel vertrieben hat, gab es hier auch keine Preissenkungen, einzig über den Gebrauchtmarkt kam man an Geräte. Und genau dieser Gebrauchtmarkt dürfte sich nun stärker füllen als bisher: Apple selbst hat angekündigt, offiziell keinen Ankauf der ersten Vision Pro vorzunehmen, ein Trade-In-Verfahren, wie bei zahlreichen anderen Apple-Geräten, wird es nicht geben.
Weiterlesen nach der Anzeige
Kein Eintausch erwünscht
Trade-In bei Apple bedeutet, dass man ein Altgerät einreicht, es von dem Konzern geschätzt wird und man dann ein Guthaben erhält, das man wiederum zum Kauf von Neuware nutzen kann. Bei iPhones gibt es derzeit beispielsweise „Eintauschwerte“ von bis zu 795 Euro (für ein iPhone 16 Pro Max, also das Topmodell aus 2024), bei Macs bis zu 1820 Euro (Mac Pro). Es ist unklar, was Apple für die Vision Pro M2 gezahlt hätte. Die Trade-In-Tarife des Konzerns gelten im Übrigen in der Refurb-Branche nicht als top – wer das meiste Geld für sein Gebrauchtgerät herausholen will, ist anderswo oft besser bedient. Allerdings ist der Ankauf durch Apple eben sehr bequem.
Die Aussage, dass es für die Vision Pro M2 keinen Ankauf geben wird, hat Apple im Kleingedruckten seiner Pressemitteilung zur Vorstellung der neuen Produkte versteckt. „Die Apple Vision Pro ist nicht für eine Inzahlungnahme qualifiziert“, heißt es dort lapidar. Apple hat keine Angaben dazu gemacht, warum das Trade-In nicht möglich ist. Die Vision Pro soll sich allerdings in der ersten Version nur unterdurchschnittlich verkauft haben. Beobachter waren teilweise überrascht, dass Apple die M5-Neuauflage gewagt hat, die bis auf den neuen Chip (etwas bessere Grafikleistung, KI und Akkulaufzeit) und ein neues Kopfband praktisch keine Neuerungen aufweist.
Auf eBay ab 2500 Euro
Wer sich für die Vision Pro M5 interessiert und bereits das M2-Modell zuhause hat, muss nun also versuchen, einen externen Ankäufer zu finden – oder gleich auf Marktplätze wie eBay zu gehen. Dort gibt es Geräte momentan bereits ab gut 2500 Euro zum Sofortkauf. Die Preise könnten mit dem Verkaufsstart des M5-Modells, der nun begonnen hat, weiter sinken.
Vision-Pro-M2-Besitzer können ansonsten ihr Gerät zumindest teilweise auf M5-Niveau bringen: So wird das neue Kopfband mit zusätzlichem Überkopfgewebestreifen für 115 Euro auch einzeln verkauft. Auch der sogenannte Developer Strap, den Apple deutlich beschleunigt hat, läuft mit dem M2-Headset.
Weiterlesen nach der Anzeige
(bsc)
Künstliche Intelligenz
Mixed Reality 2025: „Laser Dance“ zeigt, was heute technisch möglich ist
Der Brüsseler Architekt Thomas Van Bouwel hat Baupläne gegen Headsets getauscht und entwickelt heute hauptberuflich innovative Spiele für Meta Quest. Sein 3D-Puzzlespiel „Cubism“ gilt wegen seines zeitlos schönen und zugänglichen Designs als ein Vorzeigetitel des Systems.
Weiterlesen nach der Anzeige
Auch auf technischer Ebene bewies Van Bouwel großes Talent: Er integrierte früh neue Quest-Funktionen wie Mixed Reality und Handtracking in sein Spiel und zeigte damit, wozu das Headset fähig ist. Mit seinem neuen Titel „Laser Dance“ bleibt er diesem Pioniergeist treu und verschiebt erneut die Grenzen des technisch Machbaren.
„Laser Dance“ verwandelt das eigene Wohnzimmer in einen Laser-Hindernisparcours, der an Heist- und Agentenfilme erinnert. Die teils statischen, teils beweglichen Lasermuster passen sich dabei dynamisch an Größe und Grundriss der eigenen Räumlichkeiten an. Zwischen zwei Knöpfen an gegenüberliegenden Enden des Raums tanzen die Spieler unter vollem Körpereinsatz durch ein Netz aus Laserstrahlen: mal geduckt, mal kriechend, mal aufrecht durch enge Lichtspalten manövrierend.
„Laser Dance“ erscheint am 6. November im Early Access für Meta Quest 3 und 3S. Wir haben uns mit Meta Quest 3 in zwei unterschiedlich großen Räumen an den Lasertanz gewagt.
Adaptive Mixed Reality: Vom Wohnzimmer zum Laserparcours
Bevor es losgeht, muss der Spielraum gescannt werden. Je vollständiger die Umgebung erfasst ist, desto besser versteht das Spiel die räumlichen Gegebenheiten. So prallen Laserstrahlen später realistisch von Wänden und Objekten ab und Möbel können als Deckung dienen.
Nachdem man zwei Knöpfe an gegenüberliegenden Wänden des Raums platziert hat, wird der ungefähre Pfad des Hindernisparcours festgelegt. In der Early-Access-Version warten 18 Level mit mehr als 80 unterschiedlichen Mustern auf die Spieler. Alle sechs Level erweitert sich das Laserrepertoire und damit auch die Herausforderung: von statischen zu beweglichen Strahlen und sogar solche, die blitzartig durch den Raum springen.
Empfohlener redaktioneller Inhalt
Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.
Quelle: Thomas Van Bouwel
„Laser Dance“ ist eine physisch unerwartet anspruchsvolle, ja schweißtreibende Angelegenheit. Zum Glück sorgen die Level für Abwechslung bei Rhythmus und Schwierigkeit: Mal geht es um Beweglichkeit, mal um Geschick und mal darum, Bewegungsmuster zu studieren. Mitunter gewinnt man durch Geduld und bedachtes Vorgehen, dann wieder durch schnelle Reaktionen und flinke Füße. Für weniger flexible oder körperlich eingeschränkte Personen bietet das Spiel spezielle Barrierefreiheitsoptionen.
Weiterlesen nach der Anzeige
Eine der großen Herausforderungen bei der Entwicklung von Mixed-Reality-Spielen besteht darin, dass Entwickler den Grundriss eines Raums nicht im Voraus kennen. Das Leveldesign muss daher flexibel bleiben. „Laser Dance“ meistert diese Aufgabe: Mithilfe der frei platzierbaren Knöpfe ließ sich selbst in einem kleinen Wohnzimmer ein mehrere Meter langer, geschwungener Pfad durch den Laserparcours generieren.
Im Gespräch mit heise online erklärt der Entwickler, wie ihm das gelungen ist: „In den vergangenen zwei Jahren haben das Spiel weit über hundert Tester ausprobiert. Viele von ihnen haben ihre Raumscans zur Verfügung gestellt und ich habe mehrere Werkzeuge entwickelt, mit denen ich diese Räume lokal emulieren konnte. So konnte ich die Scans direkt im Leveldesign nutzen, um sicherzustellen, dass sich die Level an sehr unterschiedliche Raumverhältnisse anpassen.“
Neue Schnittstellen sorgen für mehr Realismus
Neben der räumlichen Anpassungsfähigkeit hat uns ein weiterer Aspekt des Mixed-Reality-Spiels gefallen: „Laser Dance“ ist eines der wenigen Spiele, die das Oberkörpertracking der Meta Quest 3 nutzen: ein einzigartiges Feature, das bislang kein anderes Headset unterstützt.
Die „Inside-Out Body Tracking“ genannte Schnittstelle heißt so, weil sie Oberkörper und Arme des Nutzers mithilfe der seitlichen Headset-Kameras statt externer Sensoren oder am Körper getragener Bewegungstracker erfasst. Dadurch kann „Laser Dance“ die räumliche Position des Torsos und der Arme in die Kollisionsabfrage einbeziehen: ein großer Vorteil für das Geschicklichkeitsspiel, der den Realismus deutlich erhöht. Beine und Füße werden allerdings nicht erfasst. Dafür müssten die Trackingkameras sie zuverlässig erkennen, was technisch derzeit nicht machbar ist.
Eine weitere Technik, die „Laser Dance“ auszeichnet, ist die realistische Objektverdeckung, in der Fachsprache „Dynamic Occlusion“ genannt. Virtuelle Objekte über physische Objekte zu legen, ist in Mixed Reality kein Problem. Komplex wird es beim umgekehrten Fall: wenn physische Objekte virtuelle Objekte verdecken sollen. Das Headset muss in Echtzeit analysieren, wenn die Hand des Nutzers oder ein Möbelstück sich vor einem virtuellen Objekt befindet, deren Konturen exakt erkennen und die entsprechenden Bereiche aus den virtuellen Elementen herausschneiden. Ein rechenintensiver Vorgang.
Meta Quest unterstützt mittlerweile Dynamic Occlusion und „Laser Dance“ nutzt es gekonnt: Die Laserstrahlen werden realistisch von den eigenen Gliedmaßen und sogar von Wänden und Möbeln verdeckt, wenn man den Raum präzise gescannt hat. Das funktioniert nicht immer und auch nicht perfekt, aber besser, als wir es bisher bei anderen Mixed-Reality-Spielen beobachten konnten.
„Laser Dance“ spiegelt den aktuellen Stand der Mixed Reality wider und zeigt, wie sich die Technik auf Meta Quest 3 seit dem Launch vor zwei Jahren durch verbesserte Raum- und Objekterkennung sowie neue Funktionen wie Inside-Out Body Tracking und Dynamic Occlusion weiterentwickelt hat.
„Als Quest 3 auf den Markt kam, waren einige dieser Schnittstellen noch experimentell oder gar nicht veröffentlicht. Es hat eine Weile gedauert, bis Entwickler herausgefunden haben, wie sie diese neuen Werkzeuge nutzen können, um eine Mixed Reality zu schaffen, die das Passthrough nicht nur als Hintergrund verwendet, sondern sich tatsächlich an die Umgebung und den Körper des Spielers anpasst“, sagt Van Bouwel, der durch engen Austausch mit Meta zur Verbesserung der Schnittstellen beitrug.
„Laser Dance“ vereint Technik und Ästhetik
„Laser Dance“ hat das Zeug zu einem Mixed-Reality-Klassiker. Wie der VR-Hit „Beat Saber“ überzeugt es mit einem sofort verständlichen Spielprinzip, bedarf keines Vorwissens und ist nur mit Headsets spielbar. Abgesehen von der Technik überzeugt das Mixed-Reality-Spiel auch ästhetisch: Der Tanz geometrischer Linien und Formen im Raum schmeichelt dem Auge und dürfte ein Grund sein, warum der Architekt Van Bouwel Gefallen an der Spielidee fand.
heise online XR-Briefing abonnieren
Jeden zweiten Montag, liefern wir Ihnen die wichtigsten Entwicklungen der XR-Branche. Damit Sie alles im Blick behalten.
E-Mail-Adresse
Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.
In seinem aktuellen Early-Access-Zustand fällt „Laser Dance“ noch etwas kurz aus. Für zusätzliche Spielzeit sorgen freischaltbare Modifikatoren, die das Gameplay verändern und bereits absolvierte Level anspruchsvoller gestalten. Van Bouwel verspricht außerdem neue Inhalte, die im Laufe der Early-Access-Phase erscheinen sollen, darunter eine neue Laserart, zusätzliche Level, weitere Modifikatoren und Musik, die sich dynamisch an die Bewegungen des Spielers anpasst. Auf unserer persönlichen Wunschliste steht ein lokaler Multiplayermodus, der es ermöglicht, andere Spieler samt Laserbarrieren zu sehen und die Parcours abwechselnd zu absolvieren.
„Laser Dance“ erscheint am 6. November im Early Access für Meta Quest 3 und 3S. Ältere Headsets werden aufgrund ihrer eingeschränkten Mixed-Reality-Funktionen nicht unterstützt. Im Horizon Store kann man das Spiel auf die Wunschliste setzen und damit für den Launch vormerken.
(tobe)
-
UX/UI & Webdesignvor 2 MonatenDer ultimative Guide für eine unvergessliche Customer Experience
-
UX/UI & Webdesignvor 2 MonatenAdobe Firefly Boards › PAGE online
-
Social Mediavor 2 MonatenRelatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist
-
Entwicklung & Codevor 2 MonatenPosit stellt Positron vor: Neue IDE für Data Science mit Python und R
-
Entwicklung & Codevor 2 MonatenEventSourcingDB 1.1 bietet flexiblere Konsistenzsteuerung und signierte Events
-
UX/UI & Webdesignvor 1 MonatFake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online
-
UX/UI & Webdesignvor 1 WocheIllustrierte Reise nach New York City › PAGE online
-
Social Mediavor 1 MonatSchluss mit FOMO im Social Media Marketing – Welche Trends und Features sind für Social Media Manager*innen wirklich relevant?
