In der KI-Forschung gibt es ein Schreckensszenario, das zunehmend Realität wird: Den Model Collapse. Er beschreibt den Moment, in dem Künstliche Intelligenz beginnt, ihre Verbindung zur Realität zu verlieren. Zum Beispiel, indem sie mit ihren eigenen, zunehmend synthetischen Erzeugnissen trainiert wird. Doch wie entsteht dieser Prozess konkret? Ein wesentlicher, oft übersehener Treiber ist Citogenesis.
Was ist Model Collapse?
Der Model Collapse kann u.a. dann auftreten, wenn KI-Modelle durch das Training mit synthetischen Daten ihre Varianz verlieren. Im Sinne datenbezogener „Inzucht“ wird das verstärkt, was eh schon massenhaft im Modell vorhanden ist. Seltene, aber korrekte Informationen werden im Gegenzug als statistische Ausreißer ignoriert. Während sich dominante Muster immer stärker verfestigen. Das Ergebnis ist ein System, das kaum noch neue Erkenntnisse liefert, sondern nur noch die wahrscheinlichsten (und oft fehlerhaften) Durchschnittsmeinungen seiner Vorgänger wiederkäut.
Citogenesis: Ein Turbo des Zerfalls
Eine Ursache für einen möglichen Kollaps ist eine von KI-Systemen weiter verstärkte Citogenesis – die Entstehung von Scheinfakten durch ungeprüfte, kreisförmige Referenzierung von Inhalten von KI-generierten Informationen durch andere KI-Systeme. Die Gefahr eines Modell-Kollapses wird u.a. durch die massive Flut an KI-generierten Inhalten im Internet befeuert, die Schätzungen zufolge bereits mehr als ein Drittel des gesamten Web-Contents ausmachen (z.T werden sogar 50% vermutet).
Diese Datenflut wirkt als Katalysator für eine Citogenesis: Wenn KI-Systeme auf Websites trainiert werden, die bereits ungeprüfte, algorithmisch erzeugte Informationen enthalten, entsteht eine geschlossene Feedbackschleife. In diesem Prozess werden Scheinfakten – wie das spekulative al-Hwārizmī-Narrativ – durch kreisförmige Referenzierung zwischen verschiedenen KI-generierten Quellen als „Wahrheit“ zementiert. Da KI-Modelle Häufigkeit in den Trainingsdaten oft mit Richtigkeit verwechseln, verdrängen diese synthetischen Wiederholungen zunehmend die mühsam belegbaren Primärquellen. Das Ergebnis ist eine schleichende Korrosion unseres kollektiven Wissens, bei der die schiere Masse an algorithmischen Aussagen die historische und faktische Evidenz schlichtweg erstickt
Hybride Citogenesis
Wie fatal dieses Prinzip wirkt, lässt sich an einem der wichtigsten Begriffe unserer Zeit demonstrieren: dem Algorithmus. Fast jedes KI-System gibt heute mit absoluter Gewissheit an, das Wort sei die Latinisierung des Gelehrtennamens al-Hwārizm.
Doch eine akribische Untersuchung von über 50 Primärquellen zeigt:
- Die Illusion der Evidenz: Die weit verbreitete These beruht auf einer spekulativen Vermutung des 19. Jahrhunderts. Es gibt keinen belastbaren historischen Beleg dafür, dass mittelalterliche Autoren mit dem Begriff Algorizmi tatsächlich eine reale Person meinten.
- Die Verdrängung der Wahrheit: Historisch viel besser belegt ist die funktionale Deutung der Real Academia Española (RAE), die den Begriff auf das arabische hisāb al-ġubār (das Staubrechnen) zurückführt. In einer KI-gesteuerten Welt wird diese fundierte, aber „seltene“ These jedoch zunehmend unsichtbar.
- Synthetische Verstärkung: KI-Systeme reichen dieses Narrativ heute ohne eigene Quellenprüfung durch. Um die Plausibilität zu wahren, werden oft sogar halluzinierte Links erzeugt, die Belegbarkeit suggerieren, wo keine ist.
Die Herkulesaufgabe: Zurück zu den Primärquellen
Der Fall des al-Hwārizmī-Eponyms illustriert die gewaltige Herausforderung des KI-Zeitalters. Es bedurfte einer 169-seitigen Analyse mit hunderten Nachweisen, um die Mechanismen dieser Citogenesis im Detail offenzulegen.
Dies verdeutlicht: Wenn wir dem Model Collapse entgegenwirken wollen, reicht es nicht, die KI nach der „Wahrheit“ zu fragen. Wir müssen den enormen Aufwand betreiben, zu den echten Primärquellen zurückzukehren. Ohne diese akribische Gegensteuerung riskieren wir eine Zukunft, in der Wissen nicht mehr auf Fakten basiert, sondern auf der statistischen Häufigkeit von Irrtümern.
Der Kampf gegen den Model Collapse beginnt dort, wo wir aufhören, die Standardantwort der KI ungeprüft zu übernehmen und stattdessen die mühsame Arbeit der Verifizierung leisten.
Die ganze Story hier als PDF: van-Helsing.ai – Die Odyssee von Algorizmi zum Algorithmus (166 Seiten, Stand Dezember 2025)