Connect with us

Künstliche Intelligenz

Chipkrise: Außenminister Wadephul verschiebt China-Reise wegen Spannungen


Diplomatische Eiszeit zwischen Berlin und Peking: Außenminister Johann Wadephul (CDU) hat kurzfristig eine für Montag und Dienstag geplante Reise nach China abgesagt. Die dortige Regierung habe außer einem Treffen Wadephuls mit seinem Ministerkollegen Wang Yi keine hinreichenden weiteren Termine bestätigt, begründete eine Sprecherin des Auswärtigen Amts den überraschenden Schritt. Dieser fällt in eine Zeit akuter Spannungen, die maßgeblich durch die neuen chinesischen Exportkontrollen für Seltene Erden befeuert werden.

Weiterlesen nach der Anzeige

Deutsche Unternehmen sind besorgt über die Handelsbeschränkungen Chinas, insbesondere bei sogenannten Seltenen Erden. Diese kritischen Rohstoffe sind unverzichtbar für die Produktion von Hightech-Komponenten wie Halbleitern und Elektromotoren. Ihre Verknappung hat das Potenzial, eine neue Chipkrise auszulösen, die die deutsche Industrie empfindlich treffen würde. Dazu kommt ein weiterer akuter Konflikt: Nachdem die niederländische Regierung die Kontrolle über die bisher vom chinesischen Wingtech-Konzern geführten Halbleiter-Fertiger Nexperia übernommen hatte, untersagte Peking zunächst die Ausfuhr von Produkten des Herstellers. Das betrifft spezialisierte Chips, die in Autos Daten und Signale verarbeiten.

Wadephuls vorgesehene China-Reise wäre der erste Ministerbesuch der neuen Bundesregierung unter Kanzler Merz (CDU) in Peking gewesen. Offiziell bedauert die Exekutive die nun entfallene Gelegenheit zum persönlichen Austausch über die „gesamte Themenpalette“ und will den Kontakt über ein baldiges Telefonat zwischen Wadephul und seinem chinesischen Amtskollegen intensivieren. Berlin betont dabei das Ziel der Diversifizierung der Lieferketten, hält aber an der grundsätzlichen Kooperationsbereitschaft mit China fest.

Die Reiseverschiebung wird so zu einem deutlichen diplomatischen Signal in einer Phase, in der die ökonomische Abhängigkeit Deutschlands von kritischen chinesischen Rohstoffen auf ernste geopolitische Konflikte trifft. Die Sprecherin des Auswärtigen Amts unterstrich die Bedeutung Chinas, auf Russland einzuwirken, um einen „gerechten und dauerhaften Frieden in der Ukraine“ zu ermöglichen. Peking wiederum reagierte wiederholt scharf auf die deutsche Haltung in der Taiwan-Frage. Die dortige Regierung verlangt die strikte Einhaltung des Ein-China-Prinzips, also der Einverleibung Taiwans, während Wadephul den Status quo in der Meerenge wahren will.

Wenige Stunden vor der Reiseverschiebung des Außenministers erhöhte Bundeswirtschaftsministerin Katherina Reiche den Druck auf Peking. Die CDU-Politikerin gab bekannt, dass Berlin offiziell diplomatischen Protest gegen China wegen der Blockade von Halbleiterlieferungen einlegen werde.

„Die Chip-Knappheit trifft uns hart, weil die deutsche Wirtschaft von diesen Chips abhängig ist“, erklärte Reiche in Kiew. Damit verdeutlicht die Bundesregierung die akute Bedrohung, die von Chinas restriktiver Handelspolitik ausgeht.

Weiterlesen nach der Anzeige

Gleichzeitig forciert die EU-Kommission ihre Bemühungen um eine Entspannung: Nachdem Handelskommissar Maroš Šefčovič am Dienstag mit seinem chinesischen Amtskollegen Wang Wentao gesprochen hatte, kündigte die EU-Kommission für die kommende Woche hochrangige technische Treffen an. Diese sollen sowohl persönlich als auch virtuell stattfinden und zeigen, dass die Kommission den Dialog zur Lösung der Lieferkettenprobleme aufrechterhält.

Die EU gerät im aktuellen Handelskonflikt zwischen Peking und der US-Regierung unter Präsident Donald Trump zunehmend ins Kreuzfeuer. Das gilt als besonders kritisch, da die EU einen Großteil ihrer kritischen Rohstoffe – nahezu alle Seltenen Erden sowie Permanentmagnete – aus China importiert. Die Abhängigkeit von diesen Materialien macht die EU verwundbar. Kommissionspräsidentin Ursula von der Leyen (CDU) warnte angesichts dieser Lage Anfang der Woche: „Eine Krise bei der Versorgung mit kritischen Rohstoffen ist kein fernes Risiko mehr.“


(mma)



Source link

Künstliche Intelligenz

Porsche meldet 95,9 Prozent Gewinneinbruch


Die Milliardenkosten für die Verbrenner-Verlängerung haben den Gewinn des Sport- und Geländewagenbauers Porsche in den ersten drei Quartalen fast vollständig aufgezehrt. Das Ergebnis nach Steuern brach im Jahresvergleich um 95,9 Prozent auf nur noch 114 Millionen Euro ein, wie das Unternehmen mitteilte. Von Juli bis September meldeten die Stuttgarter sogar rote Zahlen: Das Ergebnis vor Zinsen und Steuern (Ebit) lag bei minus 966 Millionen Euro. Im Vorjahresquartal war es noch ein Plus von 974 Millionen Euro.

Weiterlesen nach der Anzeige

Hauptbelastungsfaktor ist der Strategieschwenk des Managements um Noch-Porsche-Chef Oliver Blume: Zuletzt wurden die ambitionierten Elektro-Ziele kassiert – und die geplante Batteriefertigung gleich mit. Auch den Start neuer E-Modelle hat der Hersteller verschoben. Richten soll es angesichts der „Marktrealitäten und Kundenbedürfnisse“ stattdessen ein Verbrenner-Comeback bis weit ins nächste Jahrzehnt. Die Maßnahmen kosten viel Geld: Im Geschäftsjahr 2025 rechnet Porsche mit Sonderkosten von etwa 3,1 Milliarden Euro, hieß es.

Der operative Gewinn in den ersten neun Monaten lag bei 40 Millionen Euro – und somit 99 Prozent unter dem Vorjahreswert von gut vier Milliarden Euro. Der Umsatz schrumpfte um sechs Prozent auf knapp 26,9 Milliarden Euro.

Die Ergebnisse spiegeln Finanzvorstand Jochen Breckner zufolge die Belastungen im Zuge der strategischen Neuausrichtung wider: „Wir nehmen bewusst vorübergehend schwächere Finanzkennzahlen in Kauf, um langfristig Porsches Resilienz und Profitabilität zu stärken.“ Der Manager gab sich aber zuversichtlich: „Wir erwarten, dass wir den Tiefpunkt in diesem Jahr durchschreiten und Porsche sich ab 2026 spürbar verbessert.“

Die Stuttgarter waren in der jüngeren Vergangenheit meist von Erfolg zu Erfolg gerast – und spülten dem Mutterkonzern Volkswagen lange Zeit einen großen Teil des Gewinns in die Kassen. In den vergangenen Monaten ist aus dem Sportwagenbauer allerdings ein Unternehmen im Krisenmodus geworden.

Neben dem schleppenden E-Auto-Hochlauf und den US-Zöllen hat Porsche aber auch Probleme im Tagesgeschäft. Der Sportwagenbauer steuert auf das zweite Jahr mit Verkaufsminus zu. Von Januar bis September hat der Hersteller gut 215.500 Fahrzeuge ausgeliefert, sechs Prozent weniger als ein Jahr zuvor.

Weiterlesen nach der Anzeige

Insbesondere in China lief es deutlich schlechter. In den ersten neun Monaten des Jahres verkauften die Schwaben in der Volksrepublik knapp 32.200 Wagen – und damit rund 26 Prozent weniger als im Vorjahreszeitraum. Bereits zuvor hatte Porsche in dem Land Federn lassen müssen. Zum Vergleich: Im selben Zeitraum 2022 verkaufte der Konzern dort noch gut 68.700 Fahrzeuge bei einem Gesamtabsatz von rund 221.500.

„In China ist der Luxusmarkt komplett eingebrochen“, sagte Blume kürzlich. Ein Viertel des vorherigen Porsche-Gesamtvolumens sei allein dadurch nicht mehr vorhanden. Blume, der seit September 2022 auch Volkswagen führt, steht noch bis Ende des Jahres an der Spitze des Sportwagenbauers. Danach wechselt er komplett nach Wolfsburg. Anfang 2026 übernimmt der frühere McLaren-Manager Michael Leiters den Porsche-Chefposten.

Angesichts der wirtschaftlichen Probleme muss Porsche den Rotstift ansetzen – und seine Strukturen schrumpfen. Bis 2029 sollen in der Region Stuttgart rund 1900 Stellen sozial verträglich wegfallen. Außerdem laufen die Verträge von rund 2000 befristeten Angestellten aus.

Ein weiteres Sparprogramm soll in den kommenden Wochen folgen. Aktuell laufen dazu Verhandlungen mit dem Betriebsrat. Breckner teilte dazu weiter mit: „Wir müssen davon ausgehen, dass sich die Rahmenbedingungen auf absehbare Zeit nicht verbessern. Deshalb müssen wir in allen Bereichen über weitreichende Ansätze sprechen – auch im Kontext des Zukunftspakets.“

Dabei dürften nach dpa-Informationen neben zusätzlichen Stellenstreichungen auch die Jobsicherung zur Debatte stehen. Über die Ergebnisse der Gespräche wollen Unternehmen und Betriebsrat nach Abschluss informieren.


(nen)



Source link

Weiterlesen

Künstliche Intelligenz

Lokale KI-Modelle sind jetzt brauchbar (und auf dieser Hardware laufen sie)


Statt Prompts auf US-Server zu posaunen, kann man KI-Modelle auch auf eigener Hardware laufen lassen: Das ist nicht nur besser für die Privatsphäre, sondern macht auch unabhängiger von den Launen der KI-Anbieter (die gerne mal liebgewonnene Modelle durch andere austauschen). Die Frage ist nur: Welche Modelle sind brauchbare? Welche Hardware braucht man dafür? Diese Fragen versucht c’t 3003 in einem ausführlichen Video zu beantworten.

Weiterlesen nach der Anzeige

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, hier lasse ich mir gerade was von einem KI-Modell coden – in irrsinniger Geschwindigkeit. Das Beste: Das passiert alles lokal auf meinem Rechner, und das Ergebnis ist manchmal sogar besser als das, was die großen kommerziellen Anbieter wie ChatGPT von OpenAI oder Claude liefern. Naja, okay, die Betonung liegt auf manchmal, aber ich war ehrlich gesagt wirklich erstaunt, wie sich die lokalen Modelle entwickelt haben.

In diesem Video, das sich auch an Leute richtet, die noch nicht so viel Ahnung von lokaler KI haben, erkläre ich euch: Was braucht man für einen Rechner dafür, was braucht man für Software dafür und vor allem, welche KI-Modelle nimmt man am besten? Ja, NVIDIAs DGX Spark kommt auch vor – auch wenn ich davon bislang ziemlich enttäuscht bin. Bleibt dran.

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei…

Okay, lokale KI-Modelle – das ist bei euch ein Riesenthema, kann ich nicht anders sagen. Ich krieg da viel Feedback von euch, auch übrigens schon öfter in der echten Welt, dass ihr mich darauf ansprecht. Eine häufige Frage ist: Was brauche ich dafür für einen Rechner, was kaufe ich mir am besten? Könnt ihr da mal einen Rechner empfehlen? Welche Modelle taugen überhaupt was? Sind die inzwischen so gut wie ChatGPT oder Claude?

Das alles versuche ich in diesem Video zu beantworten – und ich sag mal, das wird ein heißer Ritt. Ich hoffe, dass ich euch nicht alle nach und nach verliere, ja, weil da gibt es schon viel zu besprechen. Zumindest ich finde es alles richtig interessant – und das ist ja die Hauptsache, wenn man so ein Video macht.

Weiterlesen nach der Anzeige

Fangen wir mal mit dem optimalen Rechner dafür an. Und das ist tatsächlich eine Frage, die in der c’t-Redaktion, und ich übertreibe nicht, zu stunden- und sogar tagelangen Diskussionen geführt hat. Das Problem ist halt: KI ist nicht gleich KI – und man kann den optimalen Rechner eben deswegen schlecht verallgemeinern.

Wollt ihr einfach ein lokales LLM als Chatbot mit LM Studio anzapfen, wollt ihr Bilder, Videos oder Musik generieren, wollt ihr Audio mit Whisper transkribieren, wollt ihr vielleicht sogar Modelle finetunen – das sind alles unterschiedliche Nutzungsszenarien. Ich weiß, dass das schwierig ist, aber ich versuche das jetzt trotzdem mal mit einer Empfehlung.

Fangen wir mal an mit lokalen KI-Modellen, die man mit LM Studio zum Beispiel anzapft, um so einen lokalen Chatbot hinzukriegen. Viele nennen diese Modelle ja Open-Source-Modelle, aber das ist mindestens irreführend – ich würde sogar sagen falsch. Wenn die wirklich Open Source wären, dann müssten da ja auch Informationen darüber drin sein, wie genau die trainiert wurden. Also eigentlich müsste es dann zumindest Zugriff auf die Trainingsdaten geben – und das ist so gut wie nie der Fall.

Deshalb ist es präziser, Open Weights zu sagen statt Open Source. Das heißt, dass man die Parameter des Modells runterladen und auf eigener Hardware laufen lassen kann. Also wenn wir hier von lokalen LLMs oder lokalen Modellen reden, dann sind das Open-Weights-Modelle. Aber „lokales Modell“ finde ich eigentlich am einfachsten, weil das aussagt: Kann ich auf eigener Hardware mitmachen, was ich will.

Ja, also jedenfalls: Wenn ihr damit euer eigenes ChatGPT bauen wollt – was nehmt ihr dann für Hardware? Da würde ich jetzt erst mal ganz kurz diese Tabelle hier einblenden, die ich gerade zusammengestellt habe. Die ist nämlich dafür extrem hilfreich.

Beim Abzapfen von LLMs – die KI-Crowd nennt das ja Inferenz – ist wirklich zum allergrößten Teil die Speicher-Datentransferrate relevant. Das heißt: Habt ihr eine Grafikkarte mit schnellem Speicher und passt das Sprachmodell da komplett rein, dann läuft das schnell.

Hier, guck mal: Das ist Mistral Small 3.2, komplett in meiner RTX 4090-Grafikkarte – bäm, über 40 Token die Sekunde. Ja, GDDR6X-Speicher mit ungefähr einem Terabyte Datentransferrate pro Sekunde, das ist schnell. Wenn ich das gleiche Modell nur auf meiner CPU laufen lasse, die auch echt nicht langsam ist mit ihren 16 Kernen, die aber dafür nur DDR5‑5600‑Speicher zur Verfügung hat, mit nur 90 Gigabyte Datentransferrate, ja – dann kriege ich nur drei Token pro Sekunde. Ich bin selbst echt überrascht, wie das skaliert.

Denn 1000 Gigabyte sind ja ungefähr das Elffache von 90 Gigabyte, und 40 Token pro Sekunde sind das 13-Fache von drei Token. Natürlich funktioniert das in der Praxis nicht ganz exakt, weil da noch mehr Faktoren eine Rolle spielen. Aber grob gesagt, kann man das schon so sagen.

Das Problem ist halt nur: Wenn ich eine einzelne Grafikkarte haben will mit diesem schnellen Speicher im Preisbereich unter mehreren Zehntausend Euro, dann bekomme ich zurzeit nur die RTX 5090 mit 32 Gigabyte Speicher – zwar GDDR7, superschnell, aber eben nur 32 Gigabyte.

Das heißt: Wenn ich Sprachmodelle schnell abzapfen will, dann kann ich nur Sprachmodelle benutzen, die da reinpassen. Und zum Beispiel das echt richtig gute GPT‑OSS 120B von OpenAI– also mit 120 Milliarden Parametern – braucht 63 Gigabyte Speicher. Vielleicht einfach zwei 5090er kaufen? Nee, geht nicht, denn Nvidia unterstützt NVLink nicht mehr. Also die Technik zum Bündeln von mehreren Grafikkarten – das können nur Karten bis einschließlich der 3090er‑Generation.

Und das ist auch der Grund, warum sich einige KI-Freaks Workstation-Mainboards kaufen und da dann zum Beispiel drei gebrauchte 3090er reintun. Die gibt’s auf dem Gebrauchtmarkt so ab 700 Euro das Stück. Ja, das ist aufwendig zu kühlen, aber das knallt ganz schön was weg in Sachen Token pro Sekunde – und unterstützt halt Sprachmodelle bis 72 Gigabyte Größe. (Die 3090 hat 24 Gigabyte pro Stück, also 3 × 24 = 72 Gigabyte.)

Solche Rigs schaffen mit GPT‑OSS 120B laut etlicher Quellen im Netz deutlich über 50 Token pro Sekunde, zum Teil noch viel mehr – also wirklich gute Werte. Wenn ihr jetzt die aktuellen News verfolgt und sagt: Hä, warum denn so viel Aufwand? Man kann inzwischen doch für ungefähr 4000 Euro eine Nvidia DGX Spark kaufen – die hat doch 128 Gigabyte schnellen Unified‑Speicher. Da wird ja gar nicht zwischen normalem RAM und schnellem Video‑RAM unterschieden, übrigens wie bei Apple auch. Und die ist ja extra für KI‑Workloads gemacht – die müsste doch super damit funktionieren, oder?

Ich habe das Teil zwar selbst noch nicht testen können, aber dafür viele Tests im Netz gesehen. Und da kommen die Leute mit dem GPT‑OSS 120B maximal auf 43 Token/Sekunde, zum Teil noch deutlich weniger. Ich habe euch mal ein paar Tests verlinkt – das ist also deutlich weniger als die selbstgebauten Kisten mit mehreren 3090ern.

Aber nochmal der deutliche Disclaimer: Die Benchmarks hier sind nicht von uns – also alles mit Vorsicht genießen. Was aber definitiv sicher ist: Die DGX Spark hat eine deutlich geringere Leistungsaufnahme als solche Rechner mit mehreren 3090ern.

Was ich vor allem krass finde: Rechner mit AMD Strix Halo, also Ryzen AI Max+ 395. Die gibt’s so ab 1800 Euro, und die schaffen ungefähr genauso viele Token/Sekunde wie eine DGX Spark – nur halt deutlich günstiger.

Ich habe ja noch meinen Framework‑Desktop mit AI Max Plus+ stehen, und damit habe ich in LLM Studio ungefähr 36 Token/Sekunde mit GPT‑OSS 120B gemessen – zumindest, wenn ich manuell alles auf die GPU gemappt habe.

Ach so, ich muss hier mal kurz einschieben: Wir sprechen hier nur von den Decode‑Werten, also der reinen Ausgabe der LLMs. Beim sogenannten Prefill, in dem das LLM den Prompt und den Kontext liest und daraus den internen Speicher – also den KV‑Cache – baut, da ist Rechenkraft, also Compute, relevant. Und da ist die DGX Spark deutlich schneller als die AMD‑Konkurrenz. Das will ich der Vollständigkeit halber gerne noch sagen.

Aber für so ein normales LLM‑Anzapfen kommt man günstiger bei rum – zum Beispiel mit Apple‑Rechnern. Macs sind auch eine Alternative: Da gibt’s Modelle mit 120 Gigabyte Unified‑schnellem Speicher. Wird natürlich dann schnell teuer.

Ich habe GPT‑OSS 120B gerade mal auf dem MacBook Pro mit M3 Max laufen lassen – der ist über zweieinhalb Jahre alt und schafft aber 40 Token/Sekunde, also schon ungefähr in der Range wie die DGX Spark – auf dem Notebook.

Was ich bei meinem eigenen Rechner gemacht habe: Ich will ja auch Linux nutzen, und so habe ich mir für ungefähr 500 Euro zweimal 64 Gigabyte normalen DDR5‑Speicher gekauft und den da einfach reingeworfen – also in den Rechner mit meiner RTX 4090. Und darauf schaffe ich mit GPT‑OSS 120B ziemlich annehmbare 14 Token/Sekunde. Damit reiße ich jetzt keine Bäume aus, aber ich kriege halt ein 63‑Gigabyte‑großes Sprachmodell zum Laufen – auf einem Rechner mit nur 24 Gigabyte Grafikspeicher. Für alle, die es genau wissen wollen: Ich habe den GPU‑Offload auf 13 von 36 eingestellt.

Was ich euch auf jeden Fall generell als Empfehlung sagen kann: Checkt, welche Sprachmodelle ihr genau laufen lassen wollt. Wenn die klein sind, also sagen wir mal kleiner als 24 Gigabyte, dann reichen natürlich 24 Gigabyte schneller Grafikspeicher – und dann reicht auch z. B. eine 3090 oder 4090.

Also, wenn ihr KI machen wollt und ihr eine gebrauchte 3090 auftreiben könnt, dann seid ihr auf jeden Fall ziemlich gut bedient. Die Geschwindigkeitsvorteile der beiden nachfolgenden Generationen sind bei KI nicht so richtig groß.

Die ganzen Textsachen – also z. B. so ein lokaler Chatbot mit LM Studio – funktionieren aber auch gut mit AMD‑Grafikkarten. Da könntet ihr auch zuschlagen. Oder ihr nehmt halt einen Mac; die haben auch schnellen gemeinsamen Speicher, je nach Modell – seht ihr hier in der Tabelle nochmal.

Aber für andere KI‑Anwendungen als LLMs laufen zu lassen, z. B. mit LLM Studio, also sowas wie Comfy UI zum Bilder‑ oder Video‑Generieren, da seid ihr vor allem mit Nvidia‑Grafikkarten am besten bedient, weil die halt CUDA können. Diese Programmierschnittstelle wird von vielen KI‑Programmen nach wie vor hauptsächlich genutzt. Immer mehr Programme wie eben LLM Studio beherrschen aber auch MLX – das ist das Apple‑Pendant zu CUDA – oder halt ROCm, das ist die AMD‑Variante, aber eben: viele Programme nicht. Die können nur CUDA.

Das heißt: Wenn ihr viel experimentieren wollt mit unterschiedlichen Sachen, muss ich Nvidia empfehlen. Aber geht zum Beispiel auch mit gebrauchten Nvidia‑Karten – eben der 3090er‑Empfehlung.

Ganz kurz zwischengefragt: Interessiert euch, dass wir mal so ein Multi‑GPU‑System mit KI mit gebrauchten 3090ern aufbauen? Ist halt ziemlich viel Aufwand, aber wenn das Interesse bei euch groß genug ist, dann würden wir das schon machen – also, ich hätte Bock. Wenn’s keinen interessiert, natürlich nicht.

So, das war jetzt erst mal zur Hardware. Jetzt kommen die lokal laufenden Sprachmodelle. Was nimmt man da denn so? Sind die inzwischen so gut wie ChatGPT?

Lange war die Antwort nein – und ich meine wirklich deutlich, deutlich schlechter. Man kann auch sagen: unbrauchbar.

Hier mal so ein älteres Modell auf die Frage „Was ist das c’t‑Magazin?“
Antwort: „Der c’t‑Magazin ist ein Zeitschrift für alles, was heute im Thema ist.
Das c’t‑Magazin ist ein wichtiges Leitfadenspiel, das alles ausprobiert, um sich mit den Menschen in Beziehung zu setzen und das ganze Leben damit zu verbinden.“ Also einfach – man kann es nicht anders sagen – Kauderwelsch.

Was ich auch sehr schön finde, ist hier die Antwort auf diese Rechenaufgabe: „Viel“ und dann so … „Nee, vier.“
Aber das waren wirklich alte Modelle, die ersten.

Dann kam Anfang des Jahres DeepSeek aus China – und das war wirklich das erste lokal betreibbare LLM, das mit der US‑Konkurrenz in der Cloud mithalten konnte. Allerdings – und das war das Problem – die vollständige DeepSeek‑Variante braucht über 700 Gigabyte Speicher, möglichst extrem schnellen Speicher, also wie man es halt mit Profi‑Rechenzentrums‑GPUs hinkriegt für viele, viele Zehn‑ oder sogar Hunderttausend Euro.

Aber jetzt sind ja wieder ein paar Monate vergangen, und ich muss sagen: Ich bin erstaunt, wie gut inzwischen auch ganz kleine Modelle performen. Also Modelle, die so gut wie jeder Rechner oder sogar Smartphones laufen lassen können – vor allem beim Coding.

Ich habe ja gerade schon ein paarmal LM Studio erwähnt – das habe ich in diesem Video auch nur verwendet.
Das gibt es für Linux, Windows und macOS, und das ist aktuell meine Lieblingsplattform zum Anzapfen von Sprachmodellen.
Ich habe früher immer Ollama verwendet, aber ich mag LLM Studio inzwischen lieber – einmal, weil man bei LM Studio viel einfacher die ganzen Parameter drumherum einstellen kann, also zum Beispiel, wie viel man auf die Grafikkarte auslagert, wie groß das Kontextfenster ist – also quasi das Kurzzeitgedächtnis – und weil Ollama mit so komischen Sachen wie Cloud‑Unterstützung und Accounts angefangen hat.
Und ja, bei lokaler KI geht es ja gerade darum, dass man sich eben nicht an Cloud‑Anbieter hängt. Ich will Ollama jetzt auch nicht schlechtreden. Wenn ihr das lieber benutzt, könnt ihr das natürlich gerne machen – also kein Ding.

Ich habe auf jeden Fall einfach LM Studio installiert, dann hier unter „Entdecken“ ein paar Sprachmodelle installiert und dann im Chat oben das gewünschte Modell ausgewählt – und dann einfach gepromptet: „Ich brauche eine Website, die die Uhrzeit in Hannover, New York und Tokio hübsch darstellt. Gib mir was, was ich einfach in einer HTML‑Datei copy‑pasten kann.“ Das Ganze auf Englisch, weil ich gerade bei kleineren Modellen nicht so sicher bin, welche Deutsch‑Fähigkeiten die so haben – und es soll ja fair und gerecht zugehen.

Ja, und so sah das Ergebnis bei den großen, teuren Cloud‑Sprachmodellen aus – also ChatGPT mit GPT‑5 Thinking (mit Abo), Gemini 2.5 Flash und Claude Sonnet 4.5. Und das hier ist von Qwen 3 4B 2507. Und jetzt mal kurz innehalten: Dieses Sprachmodell ist läppische 2,5 Gigabyte groß – das läuft also wirklich auf jeder Kartoffel – und es produziert meiner Meinung nach das visuell am besten gelungene Ergebnis.

Seht ihr, wie der Sternenhintergrund so ein bisschen animiert ist? Richtig nice! Okay, den Sternenhintergrund habe ich mit einem zweiten Prompt nachträglich hinzugefügt, aber das hat wunderbar funktioniert – was ja nicht immer der Fall ist. Allerdings habe ich dann gemerkt, dass die Uhrzeit nicht stimmt, aber das konnte ich im Quellcode dann selbst hinbiegen.

Ich finde auf jeden Fall Qwen 3 4B für die Größe wirklich richtig gut. Ist übrigens von Alibaba in China. Und das Ding läuft echt in einer beeindruckenden Geschwindigkeit, weil es so klein ist – weil es halt locker in meinen 24‑Gigabyte‑Grafikspeicher passt. Da kann man auch den Kontext, also das Kurzzeitgedächtnis, richtig hochziehen, und dann kann man da ganz gute Sachen mitmachen.

Andere lokale Open‑Weights‑Sprachmodelle haben mein Uhrzeit‑HTML übrigens auch ganz gut hinbekommen – das ist GPT‑OSS von OpenAI mit 20 Milliarden Parametern, das mit 120 Milliarden Parametern und Mistral Small 3.2 mit 24 Milliarden Parametern.

Wenn ihr gerade genau auf meine Liste mit den Sprachmodellen geguckt habt, dann habt ihr vielleicht gesehen, dass die Zahl der Parameter nicht mit der Gigabyte‑Angabe des Modells korreliert. Hier zum Beispiel: Mistral Small 3.2 hat 24 Milliarden Parameter (die Parameter seht ihr immer in dieser Spalte hier – also 24B steht da für „Billion“ = Milliarden). Das Modell ist aber über ein Gigabyte größer als Qwen 3 Coder 30B – also das mit 30 Milliarden Parametern. Ihr denkt euch vielleicht: Hä, wie kann das denn sein? Das hat mit der sogenannten Quantisierung zu tun.
Statt zum Beispiel jeden Parameter in 32‑Bit‑Gleitkommagenauigkeit zu speichern – was ja in unserem Fall 30 Milliarden × 32 Bit bedeutet – kann man das Ganze auch quantisieren, also vereinfacht gesagt runden: z. B. auf 8 oder sogar 4‑Bit‑Ganzzahlen.

Das hat viele Vorteile – neben weniger Speicherplatz natürlich auch höhere Geschwindigkeit. Aber wenn man zu aggressiv rundet, dann arbeitet das Sprachmodell schlechter. Da wird mit sogenannten K‑Quants gearbeitet, aber das müsst ihr in der Praxis gar nicht wissen.
Ihr müsst nur verstehen, dass es viele Modelle eben in unterschiedlichen Quantisierungsstufen gibt – ihr wisst, was diese Codes da bedeuten.

Guckt mal hier, zum Beispiel bei Qwen 3 Coder 30B: Wenn ihr da in LM Studio auf „Download Options“ klickt, seht ihr die vier Quantisierungsstufen: 3‑Bit, 4‑Bit, 6‑Bit, 8‑Bit. Wenn ihr einen Mac habt, seht ihr sogar noch mehr – nämlich die für MLX optimierten Versionen zusätzlich. Aber ihr sucht auf jeden Fall das aus, was am besten in euren GPU‑Speicher passt. Da zeigt euch LLM Studio auch Icons an – also hier zum Beispiel „vollständiges GPU‑Offloading möglich“ oder eben nicht. Wenn es nicht möglich ist, dann wird’s langsam – geht aber auch.

Wenn ihr dann im Chatfenster das Modell auswählt, sollte LLM Studio direkt automatisch den besten GPU‑Offload einstellen – also wie viel vom Sprachmodell in euren GPU‑Speicher geladen wird. Außerdem könnt ihr das Kontextfenster (oder wie LLM Studio anzeigt: die Kontextlänge) einstellen. Das bedeutet, wie viele Tokens – ein Token ist ungefähr eine Silbe – das Sprachmodell im Kurzzeitgedächtnis halten kann.

Das ist wichtig, wenn ihr mit viel Code herumhantiert, aber auch für RAG – Retrieval Augmented Generation. Also das Generieren ergänzt durch Abrufen, z. B. Abrufen von Informationen. Das klingt jetzt kompliziert, ist aber in der Praxis total super und praktisch. Und es klappt inzwischen auch wirklich gut mit den aktuellen lokalen Modellen.

Ein Beispiel: Ihr habt ein unübersichtliches PDF und wollt da eine bestimmte Info draus haben, aber keine Lust, euch da durchzuquälen.
Dann werft ihr das einfach auf LM Studio. Ich habe hier mal das Programm einer Tagung, wo ich vor vielen Jahren mal einen Vortrag gehalten habe. Dann kann ich einfach schreiben: „Wann findet der Vortrag von Jan-Keno Janssen statt?“ – und dann kriege ich super schnell eine korrekte Antwort. Man kann aber natürlich auch aufwendigere Dinge tun. Zum Beispiel: „Guck dir mal die Vornamen aller Personen an, die da sprechen, und rechne mit ihnen das Geschlechterverhältnis aus.“ Ja, zack – funktioniert. Hätte manuell ewig gedauert.

Klar, das können ChatGPT & Co. in der Cloud auch – aber man will ja vielleicht PDFs analysieren, die man nicht unbedingt im Internet herumschicken will, nicht an OpenAI in die USA. Mit lokalen Modellen bleibt das eben alles lokal – und wenn es auf die Grafikkarte passt, geht’s richtig schnell.

Der Nachteil allerdings: Weil die Modelle eben lokal laufen, können die nicht out of the box im Netz was suchen.
Das geht mit MCP – Model Context Protocol. Darüber haben wir schon ein eigenes Video gemacht, das würde jetzt zu weit führen.

Es ist halt so, dass die kommerziellen Cloud‑LLMs wie ChatGPT, Claude und Gemini inzwischen standardmäßig selbst im Netz suchen.
Das machen unsere lokalen Modelle hier nicht. Deshalb geben die auch auf viele Fragen schlechte oder falsche Antworten.

Als ich zum Beispiel gefragt habe: „Was ist das c’t‑Magazin?“, kam bei einigen eine korrekte Antwort, z. B. bei Mistral Small 3.2 aus Frankreich – aber oft auch richtiger Schrott. Das schon ältere Llama 3.23B sagt zum Beispiel, dass „c’t“ „Cthulu Times“ sei. Okay, ja … mhm.

Manchmal sieht die Antwort auf den ersten Blick okay aus, aber dann steht da auf einmal so was wie: „c’t gehört zur Famitsu Publishing Group.“
Okay … Also als lokale Wikipedia, wenn man gerade kein Netz hat, sollte man auf jeden Fall nicht diese kleinen Modelle verwenden. Aber zum Beispiel das GPT‑OSS 120B, von dem hier schon öfter die Rede war, produziert schon ganz gute Fakten.

Wenn ihr in LLM Studio eure installierten Modelle anschaut, könnt ihr mit diesem Ordnersymbol nicht nur die Zahl der Parameter oder Quantisierung sehen, sondern auch Zusatz‑Icons: Der Hammer bedeutet z. B. Tool Use, also Werkzeugbenutzung. Das kann also mit MCP umgehen, z. B. Browser bedienen. (Wie gesagt – eigenes Video dazu.) Und es gibt auch das gelbe Auge: Das bedeutet Vision, also dass das Modell Bilder verstehen kann.

Da war ich echt überrascht, wie gut das klappt. Ich habe z. B. dem nur 12‑Milliarden‑Parameter‑großen Gemma 3 von Google dieses Thumbnail hier gegeben und gesagt: „Roaste den Typen da drauf mal.“ Und dann sagt Gemma 3 sinngemäß: „Schau dir diesen Mann an – er sieht aus wie ein Teddybär, der versucht, einen Gaming‑Stream zu moderieren. In diesem Bart könnte er locker drei Hamster unterbringen …“ usw.

Also, man kann mit diesen Modellen auch sinnvollere Sachen machen – z. B. sie in Visual Studio Code einbinden, etwa mit der Software Continue oder Cline. Da muss man einfach in VS Code LLM Studio als Provider auswählen und kann dann ein Modell da einladen – und das hilft einem beim Programmieren.

Wenn ihr bis jetzt durchgehalten habt, dann habt ihr vielleicht gemerkt, dass das ein riesiges Thema ist, und ich könnte da stundenlang drüber sprechen. Aber das war jetzt, glaube ich, schon fast zu viel Inhalt für ein Video. Ich sehe das mal als Versuch. Ich gucke, wie das so ankommt bei euch – und wenn ihr da mehr drüber wissen wollt, dann mache ich zu den einzelnen Themen noch einzelne Videos.
Also eben sowas wie: selbstgebauter KI‑Server mit mehreren gebrauchten RTX 3090ern, oder lokale LLMs in einen Code‑Editor einbauen, oder einen eigenen Agenten bauen, der lokal läuft und Webseiten bedienen kann, oder auch, wie man LLMs finetuned. Oder, oder, oder – da gibt’s so viele Themen. Sagt ihr mir einfach, was ihr sehen wollt – und dann machen wir das. Tschüss.

c’t 3003 ist der YouTube-Channel von c’t. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen, Lukas Rumpler, Sahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.


(jkj)



Source link

Weiterlesen

Künstliche Intelligenz

Futuristische Fehden: „Cyberpunk 2077“ für den Mac (endlich) im Test


Zum Schluss hätten es Mac-Gamer fast nicht mehr für möglich gehalten: Der bereits im Dezember 2020 für Windows, Playstation und Xbox erschienene Action-Rollenspielklassiker „Cyberpunk 2077“ vom polnischen Studio CD Project Red hat endlich macOS erreicht. Die Ankündigung selbst kam bereits im Herbst 2024, doch bis zum eigentlichen Release müssten die User bis Spätsommer 2025 warten.

Nun ist der Titel also da und wir haben ihn uns näher angesehen. Zuer Backstory: Das Jahr 2077 sieht düster aus: Nach mehreren Kriegen und Umweltkatastrophen haben Regierungen an Bedeutung verloren.

Während wenige Großkonzerne immer mächtiger werden und die Politik bestimmen, lebt der Großteil der Bevölkerung in Armut. Um in der unwirtlichen Welt zu überleben, tragen die meisten von ihnen kybernetische Implantate.


Das war die Leseprobe unseres heise-Plus-Artikels „Futuristische Fehden: „Cyberpunk 2077″ für den Mac (endlich) im Test“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Beliebt