HomeBlogKann KI alte Buchstaben korrekt deuten?

Kann KI alte Buchstaben korrekt deuten?

Für die Interpretation mittelalterlicher Manuskripte müssen häufig alte Buchstaben gedeutet werden. Im vorliegenden Fall ging es um die Frage, ob ein gothischer Buchstabe ein „z“, ein „s“ oder ein „t/th“ wäre. Drei führende KI-Systeme waren überzeugt: Es ist ein „f“ bzw. ein „s“ oder „t/th“. Doch alle drei lagen falsch. Dies ergab sich aber erst aus einem händischen Schriftenvergleich. Das Beispiel zeigt einerseits, worauf man bei der Verwendung von KI zur Interpretation alter Manuskripte achten sollte. Das Ergebnis bestätigt andererseits die Wirksamkeit der Algorithmic validated Plausibility (AVP).

Der Mathematik-Historiker Moritz Cantor schrieb 1865 im Band X der Zeitschrift für Mathematik und Physik, dass ein neuer Codex aus dem Kloster Salem gefunden worden sei. Das Werk stamme nicht nur aus dem 12. Jahrhundert, das Manuskript „beweise“ auch, dass das Wort „Algorizmi“ auf einen Gelehrten zurückzuführen sei, dessen Namen man im Mittelalter „vergessen“ habe. Das Original des Salemer Codex kann heute im Internet angeschaut werden.

Alte Buchstaben als wichtiges Indiz

Nun war Cantor in seiner Arbeitsweise nachweislich nicht über jeden Zweifel erhaben. Die Gründe werden in diesem Beitrag zu den „historischen Beweisen“ Cantors ausführlich dargestellt. Es stellt sich in Anbetracht seines fraglosen Talents, spärliche Indizien zu „Beweisen“ zu erheben, die Frage: Was stimmt eigentlich von dem, was er behauptet hat? Und daher ist auch die Frage von Bedeutung: „Was steht wirklich im Original des Salemer Codex?“ Das schon allein deshalb von Bedeutung, weil die Falschdatierung auf das 12. Jahrhundert mit den im Text verwendeten Buchstaben begründet wurde. Heute ist gesichert: Das Manuskript ist 100-200 Jahre jünger als Cantor geglaubt hat.

Alte Buchstaben und ihre Deutung haben somit eine mehrfache Relevanz:

  • Was wurde im Original geschrieben?
  • Was wurde wie transkribiert?
  • Wann wurde das Manuskript erstellt?

Wer kennt schon alte Buchstaben?

Wer Antworten geben will, dürfte muss unzählige alte Buchstaben und ihre mittelalterliche Schreibweise kennen. Und wer die Schreibweisen nicht selber kennt, könnte dafür KI verwenden. Sie könnte es ermöglichen, die im Salemer Codex verwendeten Buchstaben gesichert zu entziffern.

Diese Idee entstand bei der Analyse des al-Hwarizmi-Narrativs, bei dem der Salemer Codex eine wichtige Rolle spielt: Das Manuskript gilt bis heute als der „Ur-Beweis“ des weltweit verbreiteten Narrativs. Man könnte sagen: Das Salemer Manuskript ist wie eine Art „Adam und Eva“ der etymologischen Herleitung. Es ist die Verkörperung eine Gründungsmythos a la „Romulus und Remus“.

Bildausschnitt des Salemer Codex mit Titel Incipit liber Algorizmi
Was genau steht hier? Liber algorizmi oder liber algorihmi? Die KIs sind sich einig: Ein „z“ ist es nicht.

Cantor (Adam/Romulus) „beweist“ nämlich in Band X erstmals anhand eines Nominativs im Salemer Codex, dass das Wort algorizmus ein Epyom sei. Sein Kollege Moritz Steinschneider (Eva/Remus) „beweist“ darüber hinaus, dass der Namensgeber al-Hwarizmi wäre. Bewiesen auch durch das „z“ im Wort algorizmus des Salemer Codex. Es „beweist“ nämlich die phonetische Ähnlichkeit von algorizmi und al-Hwarizmi. Ein Buchstabe, auf dem letztlich die gesamte „Beweiskette“ des Eponyms aufgebaut ist.

KI könnte zur Klärung beitragen, ob der Salemer Codex überhaupt korrekt transkribiert wurde. Das ist auch wichtig, denn das beweisrelevante „z“ wird im Salemer Codex ganz anders geschrieben als im Original – dem Dixit Algorizmi. In diesem Manuskript des frühen 12. Jahrhunderts ist erstmals die seltene mittelalterliche Schreibweise mit „z“ dokumentiert. In den meisten anderen Texten des Mittelalters finden sich andere Schreibweisen. Am häufigsten die mit „s“, also algorismus.

Der Buchstabenvergleich und die fehlerhafte KI-Deutung

Um dem „z“ im Salemer Codex auf den Zahn zu fühlen, wurden drei KI Systemen Bilder des Salemer Codex vorgelegt. In ihnen kam das Wort algorizmi, algorizmunm oder algorizmus mehrfach vor. Alle drei KI-Systeme sind multimodal. Sie zählen Stand Dezember 2025 zu den absoluten TOP KIs: Gemini 3, ChatGPG 5.2 Thinking, Grok 4.1.

Alle drei KIs sind selbstbewußt genug gewesen, diese Aufgabe zu anzunehmen. Alle drei haben klare Urteile gefällt, und alle drei lagen am Ende komplett daneben.

Bildausschnitt Salemer Codex Liber Algorizmi - Schreibweise von Buchstabe "Z"
Bildausschnitt Dixit Algorizmi - Schreibweise von Buchstabe "Z"
Bild oben: Das „z“ des Salemer Codex. Ein „th“? Bild unten: Das Dixit Algorizmi – hier ist es eindeutig ein „z“. Aber die Schreibweisen des „z“ weichen eindeutig voneinander ab.

Die Ergebnisse:

  • Gemini deutete den relevanten Buchstaben als „f“
  • ChatGPT deutete den gleichen Buchstaben als „t/th“
  • Grok deutete den Buchstaben schließlich als „s“ oder „t“

Was alle drei KI-Systeme aber nahezu sicher ausschließen konnten: Dass es sich um ein „z“ handeln würde. Dieses Ergebnis unterstellt hätte Cantor also das Original des Salemer Codes falsch transkribiert. Dies wäre in Anbetracht on zeitgenössischen Warnungen vor seiner Arbeitsweise vorstellbar gewesen. Gerade deshalb gilt es, in diesem konkreten Punkt fair zu bleiben:

  • Cantor hat den Text tatsächlich korrekt übersetzt. Der Buchstabe im Salemer Codex ist wirklich ein „z“.
  • Dies läßt sich aus einem händischen Schriftenvergleich der genannten Buchstaben eindeutig belegen.

Häufiges ist häufig und Seltenes ist selten

Sicher ist: Alle Buchstaben kommen mehrfach im Text vor. Das „f“, das „s“, das „t/th“ und auch das seltene „z“. Doch wieso hat erst die menschliche Nachkontrolle ergeben, dass es sich um ein „z“ handelt? Wieso haben alle drei KI-Systeme versagt, die sich einig waren, dass es kein „z“ ist?

Ganz einfach: Weil die Schreibweise des „z“, wie sie im Salemer Codex vorkommt, extrem selten ist. Eine KI, die auf der Häufigkeit von Formmustern trainiert ist, kann daher nur zum Ergebnis kommen, der zu deutende Buchstabe wäre mit an Sicherheit grenzender Wahrscheinlichkeit kein „z“.

Bildausschnitt Salemer Codex  - Schreibweise von Buchstabe "th" vs. "z" am Beispiel "mathematica"
Bildausschnitt Salemer Codex  - Schreibweise von Buchstabe "z" am Beispiel "Ezechiel"
Bild oben: Mathematik mit „th“ und unten „Ezechiel“ mit „z“. Zwei von mehreren Beispielen, die den KI-Irrtum verdeutlichen.

Wichtig ist das daraus erfolgende Learning für das Prinzip der Algorithmic validated Plausibility (AVP):

  • Algorithmen können in vieler Hinsicht dabei helfen, historische Narrative durch Prüfung von Primärquellen auf Plausibilität zu überprüfen.
  • Doch die ergänzende menschliche Prüfung ist ebenso wichtig: Man muss wissen, dass sich die Algorithmen irren könnten.
  • Gerade dann, wenn ihre Aussage besonders gesichert wirken: Vertrauen in Algorithmen ist gut, Kontrolle ist besser!

Vor allem das Folgende ist für AVPs wichtig:

  • Tatsache war, dass alle drei KI-Systeme unterschiedliche Deutungen des gleichen Buchstabens machten.
  • Die eine KI sagte „f“, die andere „s“, „t“ oder „th“. Ungereimtheiten sind im Positiven wie im Negativem ein Mittel für belastbare Validierung.
  • AVPs funktionieren gerade deshalb, da widersprüchliche KI-Begründungen mehrerer KIs auch eine negative Aussagekraft besitzen.

Auffällig ist also weniger, dass alle drei das „z“ ausschließen. Wichtig ist, dass sie den gleichen Buchstaben anders interpretieren. Nicht allein der Konsens zählt, sondern der Unterschied in der positiven Begründung.

Auszüge der drei KI-Deutungen

Schaut man sich die Bewertungen der KIs genauer an, stellt man fest:

  • Sie hätten Cantor als Transkriptions-Fälscher belastet, weil er ein nicht vorhandenes „z“ in ein solches umgewandelt hätte, ohne dies klarzustellen.
  • Doch AVP heißt auch: Die Widersprüche der KIs zu Gunsten von Cantor zu nutzen, wenn er keine Fehler gemacht hat.
  • Daher ist der Widerspruch der drei KIs im Hinblick auf die Frage „Welcher Buchstabe ist das?“ wichtiger als der Konsens „Welcher Buchstabe ist es nicht?“

Wahrscheinlichkeit allein ist also auch in diesem konkreten Fall kein tauglicher Maßstab für richtige Interpretation. Wichtiger ist die methodische Vergleich, der auch in einem AVP-Prozess zu beachten ist:

  • Worin stimmen die KIs überein?
  • Worin stimmen sie gerade nicht überein?

Algorithmus Etymologie

  • Download der Studien-Übersicht hier
  • Download der gesamten Studie hier

 

Yuval Noah Harari bezeichnet „Algorithmus“ als einen der zentralen Begriffe unserer Zeit. Im KI-Zeitalter entscheiden

In Lexika, Enzyklopädien und Fachliteratur dominiert bis heute die Erklärung, das Wort Algorithmus. sei aus

These A prüft, ob die alternative Herleitung der RAE (Real Academia Española) sprachhistorisch, kulturell und

These B prüft, ob sich die RAE-Idee aus These A im mittelalterlichen Sprachgebrauch wiederfindet: Also

In These C wird geprüft, wann das heute dominante al-Ḫwārizmī-Narrativ entstand. Erwiesen ist, dass es

Am Ende der Analyse erfolgt ein Gesamtfazit: Alle drei Thesen (A Wortstamm al-ġubār, B funktionale