Connect with us

Künstliche Intelligenz

Kinderarzt zur ePA und Co.: Warum Eltern nicht alles wissen dürfen


Elektronische Patientenakten, E-Rezepte, Apps und Künstliche Intelligenz sollen die medizinische Versorgung moderner und effizienter machen. Gleichzeitig wächst die Sorge um Datenschutz und Vertraulichkeit – auch bei sensiblen Gesundheitsdaten von Kindern und Jugendlichen.

Weiterlesen nach der Anzeige

Nach Kritik aus der Praxis wurden inzwischen erste Verbesserungen auf den Weg gebracht: So müssen Kinderärzte besonders heikle Informationen, etwa aus psychotherapeutischen oder sexualmedizinischen Behandlungen, künftig nicht mehr verpflichtend in die elektronische Patientenakte eintragen, „sofern dem erhebliche therapeutische Gründe entgegenstehen“ oder „gewichtige Anhaltspunkte für die Gefährdung des Wohles eines Kindes oder eines Jugendlichen vorliegen und die Befüllung der elektronischen Patientenakte den wirksamen Schutz des Kindes oder Jugendlichen in Frage stellen würde“.

Und auch die Abrechnungsdaten sollen mit Änderungen am Gesetz zur Befugniserweiterung und Entbürokratisierung in der Pflege nicht mehr automatisch für alle am Behandlungsprozess Beteiligten sichtbar sein.


Michael Achenbach

Michael Achenbach

Michael Achenbach ist Kinderarzt und Vorstandsmitglied im Landesverband der Kinder- und Jugendärzt*innen (BVKJ) Westfalen Lippe und hat unter anderem Technik in der Medizin studiert.

(Bild: BVKJ)

Warum das so wichtig ist und über Chancen, Grenzen und offene Fragen bei der Digitalisierung spricht Dr. Achenbach mit heise online. Er ist Kinder- und Jugendarzt sowie langjährig engagierter Experte für digitale Gesundheitsanwendungen.

Besteht die Sorge zu Recht, dass sensible Daten in der elektronischen Patientenakte (ePA) zu leicht und unkontrolliert zur Verfügung stehen?

Ja, und das gilt besonders bei Jugendlichen. Viele denken, Eltern dürften alles wissen, was ihre jugendlichen Kinder betrifft. Dem ist aber nicht so. Sobald man einsichtsfähig ist – und das kann schon vor dem 15. Geburtstag sein –, gilt die ärztliche Schweigepflicht auch gegenüber den Eltern. Wenn dann sensible Daten, etwa aus psychotherapeutischen Behandlungen oder welche, die die sexuelle Gesundheit betreffen, automatisch in der ePA landen, kann das fatale Folgen haben. Dann sehen Eltern mit Zugriff Dinge, die vertraulich bleiben müssten. Ärztliche Schweigepflicht bedeutet eben auch, den Kindern Schutz gegenüber den Eltern zu ermöglichen, sobald das Kind reif genug ist, eigenständig über Behandlungen zu entscheiden.

Die Patienten sollen ihre Gesundheitsinformationen dank der ePA selbst verwalten können. Ist das Ihrer Meinung nach realistisch?

Grundsätzlich ja, aber nur, wenn die Rahmenbedingungen stimmen. Momentan fehlt die Möglichkeit, alte oder überholte Daten wirklich zu löschen. Das sogenannte Recht auf Vergessenwerden existiert für die ePA bislang nur sehr eingeschränkt. Wenn beispielsweise ein Kind wegen einer psychischen oder sozialen Auffälligkeit behandelt wurde – sagen wir, einer Störung des Sozialverhaltens – bleibt diese Diagnose in der Akte stehen, selbst wenn sie Jahre später keinerlei Relevanz mehr hat – sofern sie niemand selbst löscht oder löschen lässt. Solche Einträge können später bei Versicherungen oder Bewerbungen problematisch werden. Da braucht es klare, rechtlich abgesicherte Löschmechanismen – auch für Kinder, deren Eltern das vielleicht gar nicht bedenken. Wer sich selbst um seine Akte oder im Bedarfsfall die seiner Angehörigen kümmert, den betrifft das selbstverständlich nicht.

Weiterlesen nach der Anzeige

Die Versicherungen können unter bestimmten Umständen aber auch Daten austauschen?

Versicherungen tauschen Daten aber nicht über die ePA untereinander aus, das ist ein Trugschluss. Die Krankenkassen haben nämlich gar keinen direkten Zugriff auf die Inhalte der ePA; sie können zwar Dokumente einstellen, sie aber nicht betrachten. Ein eventueller Datenaustausch unter den Kassen läuft an der ePA vorbei, ist also davon gar nicht betroffen.

Ärzte sind gesetzlich zur Befüllung der ePA, aber auch zur Dokumentation verpflichtet. Gibt es da Herausforderungen?

Die ePA ersetzt die herkömmlichen Patientenakten nicht, sondern ist lediglich aus Informationen aus den herkömmlichen Patientenakten, die Ärztinnen führen müssen, gespeist. Daher eignet sich die ePA nicht, um gesetzliche Aufbewahrungserfordernisse der Ärzte zu erfüllen. Diese haben gesetzliche Aufbewahrungspflichten, Patienten dagegen ein Löschrecht in ihrer ePA – das passt schlicht nicht zusammen. Wenn Behandlungsunterlagen vom Patienten gelöscht werden können, kann die Ärztin ihre Dokumentationspflicht nicht mehr erfüllen. Die ePA ist daher nur ein zusätzliches Instrument, um Informationen abzubilden, nicht aber dazu geeignet, die originäre ärztliche Dokumentation zu ersetzen oder aufzubewahren.

Die Aufbewahrungspflichten sind umfangreich: Sie betragen meist zehn, teils bis zu 30 Jahre, bei Minderjährigen oft noch länger. Die Archive dürfen zwar elektronisch geführt werden, doch wer garantiert, dass Daten auch nach Jahrzehnten noch zugänglich sind? Die sichere elektronische Langzeitarchivierung ist bisher kaum etabliert. Eine Herausforderung dabei ist auch die Findbarkeit der Daten, die entsprechend – je nach Archivierungszeitraum – gekennzeichnet sein müssen, damit diese auch ordnungsgemäß gelöscht werden können.

Die ärztliche Dokumentation ist ein rechtsverbindlicher Teil des Behandlungsvertrags und dient im Streitfall auch der Beweissicherung – etwa wenn Jahre später Behandlungsfehler behauptet werden. Patientinnen und Patienten hingegen sollen in ihrer ePA frei entscheiden dürfen, welche Daten sie behalten oder löschen. Deshalb brauchen wir zwei getrennte Systeme: eines für die rechtssichere medizinische Dokumentation und ein zweites, flexibles für den patientengesteuerten Informationsaustausch.

Hinzu kommen gesetzliche Regelungen wie im Gendiagnostikgesetz, das nach zehn Jahren sogar eine Vernichtungspflicht vorsieht. Das zeigt, wie widersprüchlich und komplex der Umgang mit medizinischen Daten in der Praxis geworden ist. Wie man Daten aus Backups tatsächlich löscht oder durch Schlüsselvernichtung unzugänglich macht, ist technisch und organisatorisch noch wenig durchdacht – sowohl in vielen Praxen als auch bei den Softwareanbietern.

Besonders diskutiert werden regelmäßig die sogenannten F-Diagnosen, also Diagnosen aus dem psychiatrischen ICD-Kapitel. Dies betrifft uns Kinder- und Jugendärzte ebenfalls, denn in diesem Kapitel finden sich auch die kindlichen Entwicklungsstörungen. Also nicht nur die eben schon genannte Störung des Sozialverhaltens, sondern zum Beispiel auch die Entwicklungsstörung der Fein- und Graphomotorik, die Artikulationsstörung und so weiter. Diagnosen, die also bei Kindern oft über Jahre – korrekterweise – in der arztgeführten Patientenakte dokumentiert sind, somit klassische Dauerdiagnosen. Wenn aber Patienten die Problematik überwunden haben, bleiben die Diagnosen dennoch in der Akte – denn sie wirken sich oftmals auf die weitere Betreuung aus. Viele Studien zu Entwicklungsstörungen zeigen longitudinale Zusammenhänge zwischen Problemen im frühen Kindesalter und späteren Problemstellungen, zum Beispiel im Jugendalter.

Ist die ePA rechtlich genauso geschützt wie die klassische Patientenakte?

Nein. Die ePA ist eine patientengeführte Akte und fällt damit nicht unter den ärztlichen Beschlagnahmeschutz. Man kann sie sich wie einen privaten Ordner vorstellen – auch der darf von Ermittlungsbehörden beschlagnahmt werden. Eine arztgeführte Fallakte dagegen wäre vor dem Zugriff durch Behörden geschützt. Das ist ein gravierender Unterschied, über den viele gar nicht Bescheid wissen.

Wie erleben Sie die Technik im Alltag?

Das E-Rezept funktioniert inzwischen halbwegs zuverlässig. Die Einlösung über die Versichertenkarte hat sich durchgesetzt. Aber die dazugehörige App spielt in der Praxis kaum eine Rolle. Die meisten nutzen sie gar nicht – sie gehen einfach mit der Karte in die Apotheke. Das bedeutet aber auch, dass sie oft nicht wissen, was auf dem Rezept steht, zum Beispiel oder wie das Medikament dosiert werden soll. Der Informationsvorteil für die Patientinnen und Patienten, den man sich mit der Einführung des E-Rezepts erhofft hatte, ist also ausgeblieben.

Die Systeme, sowohl für das E-Rezept als auch für die ePA, sind allerdings immer noch nicht stabil. Wenn man sieht, wie selten Kartenterminals im Supermarkt ausfallen, ist der Unterschied frappierend. In der Medizin tragen die Praxen die finanziellen Auswirkungen der durch Dritte ausgelösten Ausfälle selbst, obwohl sie die Technik nicht einmal frei wählen konnten. Das ist teuer, frustrierend und innovationsfeindlich. Ein konkretes Beispiel ist unser Kartenlesegerät in der Praxis. Ich habe noch keine einzige Arbeitswoche erlebt, in der es ohne Absturz durchgelaufen wäre.

Dabei haben Sie sich in der Vergangenheit immer sehr begeistert für die Digitalisierung gezeigt, beispielsweise für die App „Meine pädiatrische Praxis“. Was macht diese Anwendung anders?

Diese App ist tatsächlich ein gutes Beispiel dafür, wie Digitalisierung im Arzt-Patienten-Alltag funktionieren kann, wenn sie sinnvoll umgesetzt wird. Sie wurde vom Berufsverband der Kinder- und Jugendärzt*innen e.V. herausgegeben und dient als direkter Kommunikationskanal zwischen Praxis und Familien. Eltern können darüber Termine buchen, Erinnerungen an Vorsorgeuntersuchungen oder Impfungen erhalten und sogar Videosprechstunden starten. Ich kann Push-Nachrichten an bestimmte Altersgruppen oder Patientinnen und Patienten schicken, zum Beispiel, um über Grippeimpfungen zu informieren oder geänderte Sprechzeiten weiterzugeben.

Das System ist bewusst geschlossen und datensparsam aufgebaut – keine Cloud, keine unnötigen Drittanbieter. Die Nutzenden entscheiden selbst, welche Funktionen sie nutzen. So habe ich ein digitales Werkzeug, das zur Versorgung beiträgt, ohne den Datenschutz zu gefährden. Für mich ist das ein Schritt in die richtige Richtung: Digitalisierung nahe am praktischen Nutzen, nicht als bürokratische Pflichtübung.

Sie experimentieren außerdem mit KI-Modellen. Was genau testen Sie da?

Ich probiere zurzeit an Dummy-Daten aus, ob eine KI Dokumenttypen automatisch erkennen kann – also ob sie unterscheiden kann, ob ein Schreiben ein Arztbrief, ein Therapiebericht oder etwa ein Versicherungsnachweis ist. Das alles geschieht lokal, auf eigenen Servern, ohne Patientendaten im Netz. Ich nutze aktuelle Modelle, wie zum Beispiel „Qwen 3“ von Alibaba oder „gpt-oss“ von OpenAI. Sie arbeiten verhältnismäßig effizient und kommen mit wenig Rechenleistung aus, also ideal für den lokalen Einsatz. Wichtig ist mir dabei nämlich vor allem, dass ich die volle Kontrolle über die Daten habe und sie nicht an unbekannte Dritte weitergebe. Deshalb kommt Cloud-Computing für medizinische Informationen aktuell für mich nicht infrage.

Ist KI Ihrer Einschätzung nach reif für den Einsatz in Praxen?

Ja, mit Einschränkungen. In kritischen Bereichen – etwa bei Diagnosen oder Therapieentscheidungen – darf sie keine autonome Rolle spielen. Aber sie kann Prozesse erleichtern: zum Beispiel Arztbriefe vorsortieren oder Gesprächsnotizen zusammenfassen. Wichtig ist, dass ich als Arzt jederzeit kontrollieren kann, was die KI macht. Wenn ich selbst im Gespräch dabei bin, erkenne ich sofort, ob eine Zusammenfassung richtig ist. Wenn die KI dagegen fremde Texte auswertet, verliere ich diese Kontrolle. Dann wird’s riskant.

Ein anderes Thema, das beschäftigt, sind medizinische Register, wozu ein Registergesetz geplant ist. Warum ist das in Deutschland eine Herausforderung?

Wir haben über 400 verschiedene Register, aber alle sind freiwillig und voneinander isoliert. Länder wie Dänemark oder Schweden machen das besser – dort gibt es eine einheitliche Identifikationsnummer, über die Gesundheitsdaten pseudonymisiert zusammengeführt werden können. So konnten sie – die Dänen, nicht die Deutschen – zum Beispiel nachweisen, dass die Masernimpfung kein Autismusrisiko verursacht. Solche Erkenntnisse sind bei uns in Deutschland kaum möglich, weil die Datenbasis fehlt.

Würden Sie also sagen, ein zentrales Gesundheitsregister wäre der ePA vorzuziehen?

Für Forschungszwecke: ja, sofern der Datenschutz stimmt. Für die individuelle Versorgung: nein, da sollte alles freiwillig sein. Ich halte nichts von einer automatischen Befüllung der Patientenakte. Gesundheitsdaten sind persönlichstes Eigentum. Wenn jemand sie speichern will – gerne. Wenn nicht, dann eben nicht.

Sehen Sie bei seltenen Krankheiten Chancen in der Mustererkennung?

Ja, absolut. Wir Ärztinnen und Ärzte erkennen im besten Fall ein paar Hundert Krankheitsmuster, vielleicht 500. Es gibt aber mehrere Tausende seltener Erkrankungen. Eine gut trainierte KI kann helfen, Muster zu finden, die wir übersehen würden. Das erweitert unseren Blick. Ich habe das in meiner eigenen Familie erlebt. Eine nahe Verwandte litt jahrelang an Schmerzen, bis ich – durch Zufall – erkannte, dass sie an einer seltenen Bindegewebsschwäche erkrankt ist. Eine KI mit entsprechender Datenbasis hätte diesen Zusammenhang vielleicht früher erkannt.

Wie sehen Sie persönlich die digitale Zukunft der Medizin?

Ich finde die Zeit unglaublich spannend. Wir haben gewaltige Chancen – etwa durch offene KI-Modelle oder smarte Praxislösungen. Aber wir müssen sie sicher und verantwortungsvoll nutzen. Die ärztliche Schweigepflicht muss auch im digitalen Zeitalter gelten und die Daten der Patientinnen und Patienten dürfen nie heimlich zum Rohstoff für Dritte werden. Heimlichkeit umgeht das Recht auf selbstbestimmte Entscheidungen. Wenn Digitalisierung den Alltag wirklich erleichtert und die Versorgung verbessert, bin ich sofort dabei. Aber sie darf kein Selbstzweck sein.


(mack)



Source link

Künstliche Intelligenz

Lokale KI-Modelle sind jetzt brauchbar (und auf dieser Hardware laufen sie)


Statt Prompts auf US-Server zu posaunen, kann man KI-Modelle auch auf eigener Hardware laufen lassen: Das ist nicht nur besser für die Privatsphäre, sondern macht auch unabhängiger von den Launen der KI-Anbieter (die gerne mal liebgewonnene Modelle durch andere austauschen). Die Frage ist nur: Welche Modelle sind brauchbare? Welche Hardware braucht man dafür? Diese Fragen versucht c’t 3003 in einem ausführlichen Video zu beantworten.

Weiterlesen nach der Anzeige

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, hier lasse ich mir gerade was von einem KI-Modell coden – in irrsinniger Geschwindigkeit. Das Beste: Das passiert alles lokal auf meinem Rechner, und das Ergebnis ist manchmal sogar besser als das, was die großen kommerziellen Anbieter wie ChatGPT von OpenAI oder Claude liefern. Naja, okay, die Betonung liegt auf manchmal, aber ich war ehrlich gesagt wirklich erstaunt, wie sich die lokalen Modelle entwickelt haben.

In diesem Video, das sich auch an Leute richtet, die noch nicht so viel Ahnung von lokaler KI haben, erkläre ich euch: Was braucht man für einen Rechner dafür, was braucht man für Software dafür und vor allem, welche KI-Modelle nimmt man am besten? Ja, NVIDIAs DGX Spark kommt auch vor – auch wenn ich davon bislang ziemlich enttäuscht bin. Bleibt dran.

Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei…

Okay, lokale KI-Modelle – das ist bei euch ein Riesenthema, kann ich nicht anders sagen. Ich krieg da viel Feedback von euch, auch übrigens schon öfter in der echten Welt, dass ihr mich darauf ansprecht. Eine häufige Frage ist: Was brauche ich dafür für einen Rechner, was kaufe ich mir am besten? Könnt ihr da mal einen Rechner empfehlen? Welche Modelle taugen überhaupt was? Sind die inzwischen so gut wie ChatGPT oder Claude?

Das alles versuche ich in diesem Video zu beantworten – und ich sag mal, das wird ein heißer Ritt. Ich hoffe, dass ich euch nicht alle nach und nach verliere, ja, weil da gibt es schon viel zu besprechen. Zumindest ich finde es alles richtig interessant – und das ist ja die Hauptsache, wenn man so ein Video macht.

Weiterlesen nach der Anzeige

Fangen wir mal mit dem optimalen Rechner dafür an. Und das ist tatsächlich eine Frage, die in der c’t-Redaktion, und ich übertreibe nicht, zu stunden- und sogar tagelangen Diskussionen geführt hat. Das Problem ist halt: KI ist nicht gleich KI – und man kann den optimalen Rechner eben deswegen schlecht verallgemeinern.

Wollt ihr einfach ein lokales LLM als Chatbot mit LM Studio anzapfen, wollt ihr Bilder, Videos oder Musik generieren, wollt ihr Audio mit Whisper transkribieren, wollt ihr vielleicht sogar Modelle finetunen – das sind alles unterschiedliche Nutzungsszenarien. Ich weiß, dass das schwierig ist, aber ich versuche das jetzt trotzdem mal mit einer Empfehlung.

Fangen wir mal an mit lokalen KI-Modellen, die man mit LM Studio zum Beispiel anzapft, um so einen lokalen Chatbot hinzukriegen. Viele nennen diese Modelle ja Open-Source-Modelle, aber das ist mindestens irreführend – ich würde sogar sagen falsch. Wenn die wirklich Open Source wären, dann müssten da ja auch Informationen darüber drin sein, wie genau die trainiert wurden. Also eigentlich müsste es dann zumindest Zugriff auf die Trainingsdaten geben – und das ist so gut wie nie der Fall.

Deshalb ist es präziser, Open Weights zu sagen statt Open Source. Das heißt, dass man die Parameter des Modells runterladen und auf eigener Hardware laufen lassen kann. Also wenn wir hier von lokalen LLMs oder lokalen Modellen reden, dann sind das Open-Weights-Modelle. Aber „lokales Modell“ finde ich eigentlich am einfachsten, weil das aussagt: Kann ich auf eigener Hardware mitmachen, was ich will.

Ja, also jedenfalls: Wenn ihr damit euer eigenes ChatGPT bauen wollt – was nehmt ihr dann für Hardware? Da würde ich jetzt erst mal ganz kurz diese Tabelle hier einblenden, die ich gerade zusammengestellt habe. Die ist nämlich dafür extrem hilfreich.

Beim Abzapfen von LLMs – die KI-Crowd nennt das ja Inferenz – ist wirklich zum allergrößten Teil die Speicher-Datentransferrate relevant. Das heißt: Habt ihr eine Grafikkarte mit schnellem Speicher und passt das Sprachmodell da komplett rein, dann läuft das schnell.

Hier, guck mal: Das ist Mistral Small 3.2, komplett in meiner RTX 4090-Grafikkarte – bäm, über 40 Token die Sekunde. Ja, GDDR6X-Speicher mit ungefähr einem Terabyte Datentransferrate pro Sekunde, das ist schnell. Wenn ich das gleiche Modell nur auf meiner CPU laufen lasse, die auch echt nicht langsam ist mit ihren 16 Kernen, die aber dafür nur DDR5‑5600‑Speicher zur Verfügung hat, mit nur 90 Gigabyte Datentransferrate, ja – dann kriege ich nur drei Token pro Sekunde. Ich bin selbst echt überrascht, wie das skaliert.

Denn 1000 Gigabyte sind ja ungefähr das Elffache von 90 Gigabyte, und 40 Token pro Sekunde sind das 13-Fache von drei Token. Natürlich funktioniert das in der Praxis nicht ganz exakt, weil da noch mehr Faktoren eine Rolle spielen. Aber grob gesagt, kann man das schon so sagen.

Das Problem ist halt nur: Wenn ich eine einzelne Grafikkarte haben will mit diesem schnellen Speicher im Preisbereich unter mehreren Zehntausend Euro, dann bekomme ich zurzeit nur die RTX 5090 mit 32 Gigabyte Speicher – zwar GDDR7, superschnell, aber eben nur 32 Gigabyte.

Das heißt: Wenn ich Sprachmodelle schnell abzapfen will, dann kann ich nur Sprachmodelle benutzen, die da reinpassen. Und zum Beispiel das echt richtig gute GPT‑OSS 120B von OpenAI– also mit 120 Milliarden Parametern – braucht 63 Gigabyte Speicher. Vielleicht einfach zwei 5090er kaufen? Nee, geht nicht, denn Nvidia unterstützt NVLink nicht mehr. Also die Technik zum Bündeln von mehreren Grafikkarten – das können nur Karten bis einschließlich der 3090er‑Generation.

Und das ist auch der Grund, warum sich einige KI-Freaks Workstation-Mainboards kaufen und da dann zum Beispiel drei gebrauchte 3090er reintun. Die gibt’s auf dem Gebrauchtmarkt so ab 700 Euro das Stück. Ja, das ist aufwendig zu kühlen, aber das knallt ganz schön was weg in Sachen Token pro Sekunde – und unterstützt halt Sprachmodelle bis 72 Gigabyte Größe. (Die 3090 hat 24 Gigabyte pro Stück, also 3 × 24 = 72 Gigabyte.)

Solche Rigs schaffen mit GPT‑OSS 120B laut etlicher Quellen im Netz deutlich über 50 Token pro Sekunde, zum Teil noch viel mehr – also wirklich gute Werte. Wenn ihr jetzt die aktuellen News verfolgt und sagt: Hä, warum denn so viel Aufwand? Man kann inzwischen doch für ungefähr 4000 Euro eine Nvidia DGX Spark kaufen – die hat doch 128 Gigabyte schnellen Unified‑Speicher. Da wird ja gar nicht zwischen normalem RAM und schnellem Video‑RAM unterschieden, übrigens wie bei Apple auch. Und die ist ja extra für KI‑Workloads gemacht – die müsste doch super damit funktionieren, oder?

Ich habe das Teil zwar selbst noch nicht testen können, aber dafür viele Tests im Netz gesehen. Und da kommen die Leute mit dem GPT‑OSS 120B maximal auf 43 Token/Sekunde, zum Teil noch deutlich weniger. Ich habe euch mal ein paar Tests verlinkt – das ist also deutlich weniger als die selbstgebauten Kisten mit mehreren 3090ern.

Aber nochmal der deutliche Disclaimer: Die Benchmarks hier sind nicht von uns – also alles mit Vorsicht genießen. Was aber definitiv sicher ist: Die DGX Spark hat eine deutlich geringere Leistungsaufnahme als solche Rechner mit mehreren 3090ern.

Was ich vor allem krass finde: Rechner mit AMD Strix Halo, also Ryzen AI Max+ 395. Die gibt’s so ab 1800 Euro, und die schaffen ungefähr genauso viele Token/Sekunde wie eine DGX Spark – nur halt deutlich günstiger.

Ich habe ja noch meinen Framework‑Desktop mit AI Max Plus+ stehen, und damit habe ich in LLM Studio ungefähr 36 Token/Sekunde mit GPT‑OSS 120B gemessen – zumindest, wenn ich manuell alles auf die GPU gemappt habe.

Ach so, ich muss hier mal kurz einschieben: Wir sprechen hier nur von den Decode‑Werten, also der reinen Ausgabe der LLMs. Beim sogenannten Prefill, in dem das LLM den Prompt und den Kontext liest und daraus den internen Speicher – also den KV‑Cache – baut, da ist Rechenkraft, also Compute, relevant. Und da ist die DGX Spark deutlich schneller als die AMD‑Konkurrenz. Das will ich der Vollständigkeit halber gerne noch sagen.

Aber für so ein normales LLM‑Anzapfen kommt man günstiger bei rum – zum Beispiel mit Apple‑Rechnern. Macs sind auch eine Alternative: Da gibt’s Modelle mit 120 Gigabyte Unified‑schnellem Speicher. Wird natürlich dann schnell teuer.

Ich habe GPT‑OSS 120B gerade mal auf dem MacBook Pro mit M3 Max laufen lassen – der ist über zweieinhalb Jahre alt und schafft aber 40 Token/Sekunde, also schon ungefähr in der Range wie die DGX Spark – auf dem Notebook.

Was ich bei meinem eigenen Rechner gemacht habe: Ich will ja auch Linux nutzen, und so habe ich mir für ungefähr 500 Euro zweimal 64 Gigabyte normalen DDR5‑Speicher gekauft und den da einfach reingeworfen – also in den Rechner mit meiner RTX 4090. Und darauf schaffe ich mit GPT‑OSS 120B ziemlich annehmbare 14 Token/Sekunde. Damit reiße ich jetzt keine Bäume aus, aber ich kriege halt ein 63‑Gigabyte‑großes Sprachmodell zum Laufen – auf einem Rechner mit nur 24 Gigabyte Grafikspeicher. Für alle, die es genau wissen wollen: Ich habe den GPU‑Offload auf 13 von 36 eingestellt.

Was ich euch auf jeden Fall generell als Empfehlung sagen kann: Checkt, welche Sprachmodelle ihr genau laufen lassen wollt. Wenn die klein sind, also sagen wir mal kleiner als 24 Gigabyte, dann reichen natürlich 24 Gigabyte schneller Grafikspeicher – und dann reicht auch z. B. eine 3090 oder 4090.

Also, wenn ihr KI machen wollt und ihr eine gebrauchte 3090 auftreiben könnt, dann seid ihr auf jeden Fall ziemlich gut bedient. Die Geschwindigkeitsvorteile der beiden nachfolgenden Generationen sind bei KI nicht so richtig groß.

Die ganzen Textsachen – also z. B. so ein lokaler Chatbot mit LM Studio – funktionieren aber auch gut mit AMD‑Grafikkarten. Da könntet ihr auch zuschlagen. Oder ihr nehmt halt einen Mac; die haben auch schnellen gemeinsamen Speicher, je nach Modell – seht ihr hier in der Tabelle nochmal.

Aber für andere KI‑Anwendungen als LLMs laufen zu lassen, z. B. mit LLM Studio, also sowas wie Comfy UI zum Bilder‑ oder Video‑Generieren, da seid ihr vor allem mit Nvidia‑Grafikkarten am besten bedient, weil die halt CUDA können. Diese Programmierschnittstelle wird von vielen KI‑Programmen nach wie vor hauptsächlich genutzt. Immer mehr Programme wie eben LLM Studio beherrschen aber auch MLX – das ist das Apple‑Pendant zu CUDA – oder halt ROCm, das ist die AMD‑Variante, aber eben: viele Programme nicht. Die können nur CUDA.

Das heißt: Wenn ihr viel experimentieren wollt mit unterschiedlichen Sachen, muss ich Nvidia empfehlen. Aber geht zum Beispiel auch mit gebrauchten Nvidia‑Karten – eben der 3090er‑Empfehlung.

Ganz kurz zwischengefragt: Interessiert euch, dass wir mal so ein Multi‑GPU‑System mit KI mit gebrauchten 3090ern aufbauen? Ist halt ziemlich viel Aufwand, aber wenn das Interesse bei euch groß genug ist, dann würden wir das schon machen – also, ich hätte Bock. Wenn’s keinen interessiert, natürlich nicht.

So, das war jetzt erst mal zur Hardware. Jetzt kommen die lokal laufenden Sprachmodelle. Was nimmt man da denn so? Sind die inzwischen so gut wie ChatGPT?

Lange war die Antwort nein – und ich meine wirklich deutlich, deutlich schlechter. Man kann auch sagen: unbrauchbar.

Hier mal so ein älteres Modell auf die Frage „Was ist das c’t‑Magazin?“
Antwort: „Der c’t‑Magazin ist ein Zeitschrift für alles, was heute im Thema ist.
Das c’t‑Magazin ist ein wichtiges Leitfadenspiel, das alles ausprobiert, um sich mit den Menschen in Beziehung zu setzen und das ganze Leben damit zu verbinden.“ Also einfach – man kann es nicht anders sagen – Kauderwelsch.

Was ich auch sehr schön finde, ist hier die Antwort auf diese Rechenaufgabe: „Viel“ und dann so … „Nee, vier.“
Aber das waren wirklich alte Modelle, die ersten.

Dann kam Anfang des Jahres DeepSeek aus China – und das war wirklich das erste lokal betreibbare LLM, das mit der US‑Konkurrenz in der Cloud mithalten konnte. Allerdings – und das war das Problem – die vollständige DeepSeek‑Variante braucht über 700 Gigabyte Speicher, möglichst extrem schnellen Speicher, also wie man es halt mit Profi‑Rechenzentrums‑GPUs hinkriegt für viele, viele Zehn‑ oder sogar Hunderttausend Euro.

Aber jetzt sind ja wieder ein paar Monate vergangen, und ich muss sagen: Ich bin erstaunt, wie gut inzwischen auch ganz kleine Modelle performen. Also Modelle, die so gut wie jeder Rechner oder sogar Smartphones laufen lassen können – vor allem beim Coding.

Ich habe ja gerade schon ein paarmal LM Studio erwähnt – das habe ich in diesem Video auch nur verwendet.
Das gibt es für Linux, Windows und macOS, und das ist aktuell meine Lieblingsplattform zum Anzapfen von Sprachmodellen.
Ich habe früher immer Ollama verwendet, aber ich mag LLM Studio inzwischen lieber – einmal, weil man bei LM Studio viel einfacher die ganzen Parameter drumherum einstellen kann, also zum Beispiel, wie viel man auf die Grafikkarte auslagert, wie groß das Kontextfenster ist – also quasi das Kurzzeitgedächtnis – und weil Ollama mit so komischen Sachen wie Cloud‑Unterstützung und Accounts angefangen hat.
Und ja, bei lokaler KI geht es ja gerade darum, dass man sich eben nicht an Cloud‑Anbieter hängt. Ich will Ollama jetzt auch nicht schlechtreden. Wenn ihr das lieber benutzt, könnt ihr das natürlich gerne machen – also kein Ding.

Ich habe auf jeden Fall einfach LM Studio installiert, dann hier unter „Entdecken“ ein paar Sprachmodelle installiert und dann im Chat oben das gewünschte Modell ausgewählt – und dann einfach gepromptet: „Ich brauche eine Website, die die Uhrzeit in Hannover, New York und Tokio hübsch darstellt. Gib mir was, was ich einfach in einer HTML‑Datei copy‑pasten kann.“ Das Ganze auf Englisch, weil ich gerade bei kleineren Modellen nicht so sicher bin, welche Deutsch‑Fähigkeiten die so haben – und es soll ja fair und gerecht zugehen.

Ja, und so sah das Ergebnis bei den großen, teuren Cloud‑Sprachmodellen aus – also ChatGPT mit GPT‑5 Thinking (mit Abo), Gemini 2.5 Flash und Claude Sonnet 4.5. Und das hier ist von Qwen 3 4B 2507. Und jetzt mal kurz innehalten: Dieses Sprachmodell ist läppische 2,5 Gigabyte groß – das läuft also wirklich auf jeder Kartoffel – und es produziert meiner Meinung nach das visuell am besten gelungene Ergebnis.

Seht ihr, wie der Sternenhintergrund so ein bisschen animiert ist? Richtig nice! Okay, den Sternenhintergrund habe ich mit einem zweiten Prompt nachträglich hinzugefügt, aber das hat wunderbar funktioniert – was ja nicht immer der Fall ist. Allerdings habe ich dann gemerkt, dass die Uhrzeit nicht stimmt, aber das konnte ich im Quellcode dann selbst hinbiegen.

Ich finde auf jeden Fall Qwen 3 4B für die Größe wirklich richtig gut. Ist übrigens von Alibaba in China. Und das Ding läuft echt in einer beeindruckenden Geschwindigkeit, weil es so klein ist – weil es halt locker in meinen 24‑Gigabyte‑Grafikspeicher passt. Da kann man auch den Kontext, also das Kurzzeitgedächtnis, richtig hochziehen, und dann kann man da ganz gute Sachen mitmachen.

Andere lokale Open‑Weights‑Sprachmodelle haben mein Uhrzeit‑HTML übrigens auch ganz gut hinbekommen – das ist GPT‑OSS von OpenAI mit 20 Milliarden Parametern, das mit 120 Milliarden Parametern und Mistral Small 3.2 mit 24 Milliarden Parametern.

Wenn ihr gerade genau auf meine Liste mit den Sprachmodellen geguckt habt, dann habt ihr vielleicht gesehen, dass die Zahl der Parameter nicht mit der Gigabyte‑Angabe des Modells korreliert. Hier zum Beispiel: Mistral Small 3.2 hat 24 Milliarden Parameter (die Parameter seht ihr immer in dieser Spalte hier – also 24B steht da für „Billion“ = Milliarden). Das Modell ist aber über ein Gigabyte größer als Qwen 3 Coder 30B – also das mit 30 Milliarden Parametern. Ihr denkt euch vielleicht: Hä, wie kann das denn sein? Das hat mit der sogenannten Quantisierung zu tun.
Statt zum Beispiel jeden Parameter in 32‑Bit‑Gleitkommagenauigkeit zu speichern – was ja in unserem Fall 30 Milliarden × 32 Bit bedeutet – kann man das Ganze auch quantisieren, also vereinfacht gesagt runden: z. B. auf 8 oder sogar 4‑Bit‑Ganzzahlen.

Das hat viele Vorteile – neben weniger Speicherplatz natürlich auch höhere Geschwindigkeit. Aber wenn man zu aggressiv rundet, dann arbeitet das Sprachmodell schlechter. Da wird mit sogenannten K‑Quants gearbeitet, aber das müsst ihr in der Praxis gar nicht wissen.
Ihr müsst nur verstehen, dass es viele Modelle eben in unterschiedlichen Quantisierungsstufen gibt – ihr wisst, was diese Codes da bedeuten.

Guckt mal hier, zum Beispiel bei Qwen 3 Coder 30B: Wenn ihr da in LM Studio auf „Download Options“ klickt, seht ihr die vier Quantisierungsstufen: 3‑Bit, 4‑Bit, 6‑Bit, 8‑Bit. Wenn ihr einen Mac habt, seht ihr sogar noch mehr – nämlich die für MLX optimierten Versionen zusätzlich. Aber ihr sucht auf jeden Fall das aus, was am besten in euren GPU‑Speicher passt. Da zeigt euch LLM Studio auch Icons an – also hier zum Beispiel „vollständiges GPU‑Offloading möglich“ oder eben nicht. Wenn es nicht möglich ist, dann wird’s langsam – geht aber auch.

Wenn ihr dann im Chatfenster das Modell auswählt, sollte LLM Studio direkt automatisch den besten GPU‑Offload einstellen – also wie viel vom Sprachmodell in euren GPU‑Speicher geladen wird. Außerdem könnt ihr das Kontextfenster (oder wie LLM Studio anzeigt: die Kontextlänge) einstellen. Das bedeutet, wie viele Tokens – ein Token ist ungefähr eine Silbe – das Sprachmodell im Kurzzeitgedächtnis halten kann.

Das ist wichtig, wenn ihr mit viel Code herumhantiert, aber auch für RAG – Retrieval Augmented Generation. Also das Generieren ergänzt durch Abrufen, z. B. Abrufen von Informationen. Das klingt jetzt kompliziert, ist aber in der Praxis total super und praktisch. Und es klappt inzwischen auch wirklich gut mit den aktuellen lokalen Modellen.

Ein Beispiel: Ihr habt ein unübersichtliches PDF und wollt da eine bestimmte Info draus haben, aber keine Lust, euch da durchzuquälen.
Dann werft ihr das einfach auf LM Studio. Ich habe hier mal das Programm einer Tagung, wo ich vor vielen Jahren mal einen Vortrag gehalten habe. Dann kann ich einfach schreiben: „Wann findet der Vortrag von Jan-Keno Janssen statt?“ – und dann kriege ich super schnell eine korrekte Antwort. Man kann aber natürlich auch aufwendigere Dinge tun. Zum Beispiel: „Guck dir mal die Vornamen aller Personen an, die da sprechen, und rechne mit ihnen das Geschlechterverhältnis aus.“ Ja, zack – funktioniert. Hätte manuell ewig gedauert.

Klar, das können ChatGPT & Co. in der Cloud auch – aber man will ja vielleicht PDFs analysieren, die man nicht unbedingt im Internet herumschicken will, nicht an OpenAI in die USA. Mit lokalen Modellen bleibt das eben alles lokal – und wenn es auf die Grafikkarte passt, geht’s richtig schnell.

Der Nachteil allerdings: Weil die Modelle eben lokal laufen, können die nicht out of the box im Netz was suchen.
Das geht mit MCP – Model Context Protocol. Darüber haben wir schon ein eigenes Video gemacht, das würde jetzt zu weit führen.

Es ist halt so, dass die kommerziellen Cloud‑LLMs wie ChatGPT, Claude und Gemini inzwischen standardmäßig selbst im Netz suchen.
Das machen unsere lokalen Modelle hier nicht. Deshalb geben die auch auf viele Fragen schlechte oder falsche Antworten.

Als ich zum Beispiel gefragt habe: „Was ist das c’t‑Magazin?“, kam bei einigen eine korrekte Antwort, z. B. bei Mistral Small 3.2 aus Frankreich – aber oft auch richtiger Schrott. Das schon ältere Llama 3.23B sagt zum Beispiel, dass „c’t“ „Cthulu Times“ sei. Okay, ja … mhm.

Manchmal sieht die Antwort auf den ersten Blick okay aus, aber dann steht da auf einmal so was wie: „c’t gehört zur Famitsu Publishing Group.“
Okay … Also als lokale Wikipedia, wenn man gerade kein Netz hat, sollte man auf jeden Fall nicht diese kleinen Modelle verwenden. Aber zum Beispiel das GPT‑OSS 120B, von dem hier schon öfter die Rede war, produziert schon ganz gute Fakten.

Wenn ihr in LLM Studio eure installierten Modelle anschaut, könnt ihr mit diesem Ordnersymbol nicht nur die Zahl der Parameter oder Quantisierung sehen, sondern auch Zusatz‑Icons: Der Hammer bedeutet z. B. Tool Use, also Werkzeugbenutzung. Das kann also mit MCP umgehen, z. B. Browser bedienen. (Wie gesagt – eigenes Video dazu.) Und es gibt auch das gelbe Auge: Das bedeutet Vision, also dass das Modell Bilder verstehen kann.

Da war ich echt überrascht, wie gut das klappt. Ich habe z. B. dem nur 12‑Milliarden‑Parameter‑großen Gemma 3 von Google dieses Thumbnail hier gegeben und gesagt: „Roaste den Typen da drauf mal.“ Und dann sagt Gemma 3 sinngemäß: „Schau dir diesen Mann an – er sieht aus wie ein Teddybär, der versucht, einen Gaming‑Stream zu moderieren. In diesem Bart könnte er locker drei Hamster unterbringen …“ usw.

Also, man kann mit diesen Modellen auch sinnvollere Sachen machen – z. B. sie in Visual Studio Code einbinden, etwa mit der Software Continue oder Cline. Da muss man einfach in VS Code LLM Studio als Provider auswählen und kann dann ein Modell da einladen – und das hilft einem beim Programmieren.

Wenn ihr bis jetzt durchgehalten habt, dann habt ihr vielleicht gemerkt, dass das ein riesiges Thema ist, und ich könnte da stundenlang drüber sprechen. Aber das war jetzt, glaube ich, schon fast zu viel Inhalt für ein Video. Ich sehe das mal als Versuch. Ich gucke, wie das so ankommt bei euch – und wenn ihr da mehr drüber wissen wollt, dann mache ich zu den einzelnen Themen noch einzelne Videos.
Also eben sowas wie: selbstgebauter KI‑Server mit mehreren gebrauchten RTX 3090ern, oder lokale LLMs in einen Code‑Editor einbauen, oder einen eigenen Agenten bauen, der lokal läuft und Webseiten bedienen kann, oder auch, wie man LLMs finetuned. Oder, oder, oder – da gibt’s so viele Themen. Sagt ihr mir einfach, was ihr sehen wollt – und dann machen wir das. Tschüss.

c’t 3003 ist der YouTube-Channel von c’t. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen, Lukas Rumpler, Sahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.


(jkj)



Source link

Weiterlesen

Künstliche Intelligenz

Chipkrise: Außenminister Wadephul verschiebt China-Reise wegen Spannungen


Diplomatische Eiszeit zwischen Berlin und Peking: Außenminister Johann Wadephul (CDU) hat kurzfristig eine für Montag und Dienstag geplante Reise nach China abgesagt. Die dortige Regierung habe außer einem Treffen Wadephuls mit seinem Ministerkollegen Wang Yi keine hinreichenden weiteren Termine bestätigt, begründete eine Sprecherin des Auswärtigen Amts den überraschenden Schritt. Dieser fällt in eine Zeit akuter Spannungen, die maßgeblich durch die neuen chinesischen Exportkontrollen für Seltene Erden befeuert werden.

Weiterlesen nach der Anzeige

Deutsche Unternehmen sind besorgt über die Handelsbeschränkungen Chinas, insbesondere bei sogenannten Seltenen Erden. Diese kritischen Rohstoffe sind unverzichtbar für die Produktion von Hightech-Komponenten wie Halbleitern und Elektromotoren. Ihre Verknappung hat das Potenzial, eine neue Chipkrise auszulösen, die die deutsche Industrie empfindlich treffen würde. Dazu kommt ein weiterer akuter Konflikt: Nachdem die niederländische Regierung die Kontrolle über die bisher vom chinesischen Wingtech-Konzern geführten Halbleiter-Fertiger Nexperia übernommen hatte, untersagte Peking zunächst die Ausfuhr von Produkten des Herstellers. Das betrifft spezialisierte Chips, die in Autos Daten und Signale verarbeiten.

Wadephuls vorgesehene China-Reise wäre der erste Ministerbesuch der neuen Bundesregierung unter Kanzler Merz (CDU) in Peking gewesen. Offiziell bedauert die Exekutive die nun entfallene Gelegenheit zum persönlichen Austausch über die „gesamte Themenpalette“ und will den Kontakt über ein baldiges Telefonat zwischen Wadephul und seinem chinesischen Amtskollegen intensivieren. Berlin betont dabei das Ziel der Diversifizierung der Lieferketten, hält aber an der grundsätzlichen Kooperationsbereitschaft mit China fest.

Die Reiseverschiebung wird so zu einem deutlichen diplomatischen Signal in einer Phase, in der die ökonomische Abhängigkeit Deutschlands von kritischen chinesischen Rohstoffen auf ernste geopolitische Konflikte trifft. Die Sprecherin des Auswärtigen Amts unterstrich die Bedeutung Chinas, auf Russland einzuwirken, um einen „gerechten und dauerhaften Frieden in der Ukraine“ zu ermöglichen. Peking wiederum reagierte wiederholt scharf auf die deutsche Haltung in der Taiwan-Frage. Die dortige Regierung verlangt die strikte Einhaltung des Ein-China-Prinzips, also der Einverleibung Taiwans, während Wadephul den Status quo in der Meerenge wahren will.

Wenige Stunden vor der Reiseverschiebung des Außenministers erhöhte Bundeswirtschaftsministerin Katherina Reiche den Druck auf Peking. Die CDU-Politikerin gab bekannt, dass Berlin offiziell diplomatischen Protest gegen China wegen der Blockade von Halbleiterlieferungen einlegen werde.

„Die Chip-Knappheit trifft uns hart, weil die deutsche Wirtschaft von diesen Chips abhängig ist“, erklärte Reiche in Kiew. Damit verdeutlicht die Bundesregierung die akute Bedrohung, die von Chinas restriktiver Handelspolitik ausgeht.

Weiterlesen nach der Anzeige

Gleichzeitig forciert die EU-Kommission ihre Bemühungen um eine Entspannung: Nachdem Handelskommissar Maroš Šefčovič am Dienstag mit seinem chinesischen Amtskollegen Wang Wentao gesprochen hatte, kündigte die EU-Kommission für die kommende Woche hochrangige technische Treffen an. Diese sollen sowohl persönlich als auch virtuell stattfinden und zeigen, dass die Kommission den Dialog zur Lösung der Lieferkettenprobleme aufrechterhält.

Die EU gerät im aktuellen Handelskonflikt zwischen Peking und der US-Regierung unter Präsident Donald Trump zunehmend ins Kreuzfeuer. Das gilt als besonders kritisch, da die EU einen Großteil ihrer kritischen Rohstoffe – nahezu alle Seltenen Erden sowie Permanentmagnete – aus China importiert. Die Abhängigkeit von diesen Materialien macht die EU verwundbar. Kommissionspräsidentin Ursula von der Leyen (CDU) warnte angesichts dieser Lage Anfang der Woche: „Eine Krise bei der Versorgung mit kritischen Rohstoffen ist kein fernes Risiko mehr.“


(mma)



Source link

Weiterlesen

Künstliche Intelligenz

Futuristische Fehden: „Cyberpunk 2077“ für den Mac (endlich) im Test


Zum Schluss hätten es Mac-Gamer fast nicht mehr für möglich gehalten: Der bereits im Dezember 2020 für Windows, Playstation und Xbox erschienene Action-Rollenspielklassiker „Cyberpunk 2077“ vom polnischen Studio CD Project Red hat endlich macOS erreicht. Die Ankündigung selbst kam bereits im Herbst 2024, doch bis zum eigentlichen Release müssten die User bis Spätsommer 2025 warten.

Nun ist der Titel also da und wir haben ihn uns näher angesehen. Zuer Backstory: Das Jahr 2077 sieht düster aus: Nach mehreren Kriegen und Umweltkatastrophen haben Regierungen an Bedeutung verloren.

Während wenige Großkonzerne immer mächtiger werden und die Politik bestimmen, lebt der Großteil der Bevölkerung in Armut. Um in der unwirtlichen Welt zu überleben, tragen die meisten von ihnen kybernetische Implantate.


Das war die Leseprobe unseres heise-Plus-Artikels „Futuristische Fehden: „Cyberpunk 2077″ für den Mac (endlich) im Test“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Beliebt