••• Von Jakob Klawatsch
Kennen Sie die griechische Hafenstadt Pylos? Nein? Nicht schlimm, das Städtchen im Südwesten der Peloponnes-Halbinsel hat gerade einmal etwas über 2.000 Einwohner und liegt abseits beliebter Tourismusinseln wie Kreta, Rhodos oder Mykonos. Und dennoch wurde am 16. April 2001 um 16:31 just über Pylos der erste erhaltene Eintrag der deutschsprachigen Wikipedia erstellt. Die deutsche Ausgabe wurde wiederum exakt ein Monat davor, am 16. März 2001, als erste weitere Sprachausgabe nach der englischsprachigen Wikipedia gegründet.
Heute, 25 Jahre später, umfasst die deutschsprachige Wikipedia mehr als drei Millionen Artikel, was sie zur drittgrößten Wikipedia-Ausgabe gemessen an der Anzahl der Artikel macht. Außerdem ist sie eine der zehn meistbesuchten Websites im deutschsprachigen Raum. Die Online-Enzyklopädie wird nach wie vor von einer globalen Gemeinschaft ehrenamtlicher Autorinnen und Autoren getragen. Mit der Finanzierung über Spenden hebt sich das Gemeinschaftsprojekt Wikipedia zudem von anderen kommerziellen Produkten ab.
Wissen im KI-Zeitalter
Durch das Aufkommen von Large Language Modells (LLM) hat sich allerdings die Rolle von Wikipedia in der digitalen Informationsökonomie verändert. Denn große KI-Modelle wie ChatGPT und Co. nutzen Wikipedia-Inhalte sowohl beim Training als auch bei der Evaluierung, immerhin bieten sie eine breite, kuratierte und verlässliche Wissensbasis. Das erhöht zwar den Wert der Plattform im KI-Ökosystem, eröffnet aber zugleich strukturelle Herausforderungen.
Nicole High-Steskal, Vorstandsmitglied bei Wikimedia Österreich, dem österreichischen Ableger des gemeinnützigen Vereins der hinter Wikipedia steckt, betont gegenüber medianet, dass hier zwischen infrastrukturellen und inhaltlichen Herausforderungen unterschieden werden muss. „Infrastrukturell nimmt schon seit einiger Zeit die Anzahl an Bots, die tagtäglich die Seiten der Wikipedia und deren Schwesterprojekte abgrasen, massiv zu. Dadurch entstehen riesige Datenströme, die die Server und die Gesamtinfrastruktur stark belasten“, erklärt High-Steskal.
Als Reaktion auf die wachsende Nutzung durch KI-Unternehmen hat die Wikimedia Foundation bereits 2021 die Wikimedia Enterprise gegründet. Große Technologieunternehmen wie Google und seit Anfang 2026 auch Meta oder Microsoft nutzen das Angebot, um die offenen Daten in größerem Umfang zu integrieren. Neben einer Verringerung der Infrastrukturbelastung könne man so auch „die Firmen stärker in die Pflicht nehmen, Inhalte aus der Wikipedia als solche auszuweisen“, so High-Steskal.
Dazu kämen die inhaltliche Herausforderung: Inhalte der Wikipedia und ihrer Schwesterprojekte würden genutzt werden, um LLMs zu trainieren. Zugleich bestehe die Gefahr, dass KI-Modelle Wikipedia-Inhalte generieren, die nicht den Qualitätskriterien der Online-Enzyklopädie entsprächen. Seitens Wikimedia Österreich verweist man hier auf den Grundsatz „Human first“: Inhalte müssen weiterhin von Menschen überprüft werden. Der zugehörige Indizienkatalog zur Erkennung von KI-Inhalten werden laufend ergänzt und überarbeitet.
„Essentieller Baustein“
Alexander Schindler, Data Science- und KI-Experte am AIT Austrian Institute of Technology unterstreicht den Stellenwert von Wikipedia, war die Online-Enzyklopädie doch „ein essentieller Baustein, der zum Erfolg von Large Language Models beigetragen hat“. In den ersten Jahren seien Wikipedia-Inhalte wichtiger Teil der KI-Trainingsdaten gewesen. „Die Technologie hat sich danach aber so schnell entwickelt und wurde so datenhungrig, dass der Anteil von Wikipedia bei manchen Modellen bald nur mehr etwa ein Prozent der Trainingsdaten betrug“, räumt Schindler ein.
Wikipedia sei nicht zuletzt deshalb wichtig gewesen, um im Kontext halluzinierender Systeme „vertrauenswürdige, durch Menschen kurierte und moderierte Inhalte als Referenz zu haben“. So könne man KI-generierte Inhalte auf ihre Validität überprüfen. Zudem hebt Schindler den multilingualen Aspekt von Wikipedia hervor. „Den gleichen Inhalt in einer Vielzahl unterschiedlicher Sprachen zur Verfügung zu haben, ist für das Training von multilingualer KI-Modellen extrem wertvoll“ sagt der KI-Experte.
Wünsche zum 25er
Bleibt die Frage offen, ob Wikipedia, angesichts des rasenden Fortschritts von LLMs und der Einbindung von KI-Zusammenfassungen in Suchmaschinenergebnissen, nicht irgendwann ausgedient hat. Technisch gesehen gebe es aktuell keinen Grund zur Sorge, meint Schindler: „Ausgehend davon, wie Machine Learning-Modelle trainiert, also erstellt, werden, werden hoch qualitative Daten immer gebraucht werden – sowohl für das Training, sowie für die Evaluierung der Qualität der Ausgaben.“
Seitens Wikimedia Österreich hofft man zum Jubiläum weiterhin die Unabhängigkeit und Qualität der Plattform zu bewahren. „Ich würde mir wünschen, dass die Bereiche des Internets, die aktuell noch als gallische Dörfer der Kommerzialisierung und politischen Einflussnahme trotzen, eine Renaissance erfahren“, sagt Peter Zlabinger, Referent für Kommunikation bei Wikimedia Österreich.
Umgelegt auf die Online-Enzyklopädie hofft man weiterhin, junge Menschen für die Arbeit an der Plattform begeistern zu können – aber auch das „Österreich und österreichische Themen in der deutschsprachigen Wikipedia an Relevanz gewinnen“. Mit Blick auf KI meint Zlabinger: „KI soll keine Bedrohung oder Gefahr für menschlich erarbeitete Inhalte darstellen, sondern die Arbeit der Ehrenamtlichen erleichtern, wo es Sinn ergibt und sich nicht durchsetzt, wo es sich als abträglich herausstellt.“
