Künstliche Intelligenz
Wikidata, die weltgrößte Datenbank für strukturiertes Wissen, bietet MCP-Zugang
Wikidata, die Datenbank für strukturiertes Wissen, von Wikimedia Deutschland bietet künftig eine frei zugängliche Schnittstelle für LLMs. Das Projekt hat seine Daten vektorisiert und stellt diese in einer Vektordatenbank als Embeddings zur Verfügung, die Entwicklerinnen und Entwickler per Retrieval Augmented Generation (RAG) und Model Context Protocol (MPC) an LLMs anbinden können.
Wikidata ist laut Aussage der Betreiber der weltweit größte offene Wissensgraph, der rund 119 Millionen Einträge enthält und den rund 24.000 Freiwillige pro Monat weltweit pflegen. Die Datenbank enthält strukturierte Daten als Graphen unter anderem aus Wikimedia-Projekten wie Wikipedia, Wikivoyage oder Wikisource.
Der offene Zugang zu diesen Daten soll dazu dienen, die Qualität von LLMs zu verbessern, indem diese per RAG auf strukturiertes, aktuelles und geprüftes Wissen zugreifen. Das kann fehlerhafte Antworten und Halluzinationen reduzieren. Als mögliche Anwendungen sieht Wikimedia etwa Fakten-Checks oder Tools zur Vandalismusbekämpfung.
Wikidata bietet eine API für die Suche in der Embeddings-Datenbank.
Kombination aus Graphen- und Vektorensuche
Die Betreiber empfehlen, die semantische Vektorsuche zur Identifizierung der richtigen Datensätze zu verwenden und dann über die Graphen-Datenbank, das Wissen strukturiert zu nutzen (GraphRAG). Neben der Vektorsuche gibt es eine Keyword-Suchfunktion und beschreibende Abfragen zur präzisen Identifizierung von Begriffen. Diese Ansätze kombiniert das System, was Abfragen komfortabler und erfolgreicher machen soll.
Außerdem lässt sich Wikidata als Quelle ausweisen, sodass Nutzer nachvollziehen können, woher die Suchergebnisse stammen. Die Vektordatenbank unterstützt derzeit Suchanfragen in Englisch, Französisch und Arabisch. Bis Ende des Jahres will der Betreiber Spanisch und Mandarin ausbauen. Weitere Sprachen sollen folgen.
Das Embedding-Projekt entsteht seit September 2024 mit zwei Partnern: Jina AI transformiert die Daten von Wikidata in Vektoren, die in der Vektordatenbank Astra DB landen. Der Quellcode der Anwendung steht unter der offenen MIT-Lizenz.
Antwort auf die großen Tech-Konzerne
Wikimedia betont auch einen gesellschaftlichen Aspekt: Die neue Technologie soll Entwicklerinnen und Entwicklern weltweit Möglichkeiten bieten, LLMs transparenter, verlässlicher und gerechter zu gestalten – und damit ein Gegengewicht zu den Angeboten großer Tech-Konzerne zu erzeugen. Dank der Arbeit einer großen internationalen Community aus Freiwilligen kann Wikidata auch unterrepräsentierte Themen und Perspektiven abbilden und so eine vielfältigere Datenbasis für die generative KI-Entwicklung schaffen.
Interessenten haben die Möglichkeit, im kostenlosen Webinar am 9. Oktober praktische Tipps und Anwendungsbeispiele zu lernen.
Lesen Sie auch
(who)