ChatGPT “spricht” GEDCOM – Revolutionäre Möglichkeiten für die Genealogie
Die Künstliche Intelligenz ChatGPT ist in der Lage das in der Genealogie wichtigste Datenaustauschformat GEDCOM zu erzeugen. Das eröffnet ungeahnte Möglichkeiten für die Ahnen- und Familienforschung.
Längere Texte, wie Biografien oder Gerichtsprotokolle, enthalten oft auch Informationen, die für eine Genealogie relevant sein können. Diese Daten aus den oft langen Texten zu destillieren, kann sehr mühsam sein. Daher bietet es sich nun an, die Texte durch eine KI, wie etwa ChatGPT, lesen und auswerten zu lassen. Mit geeigneten “Prompts” lassen sich so Tabellen erzeugen, die alle Personen in einem Text mit den zugehörigen Daten und Ereignissen auflisten. Ähnliches gilt für Todesanzeigen oder Zeitungsartikel zu Familienereignissen. Eine KI kann die darin erwähnten Personen und ihre Beziehungen zueinander analysieren und tabellarisch aufbereiten.
Aber nicht nur das ist schon erstaunlich. Auf einer Zugfahrt bin ich eher zufällig darauf gestoßen, dass ChatGPT solche Informationen auch direkt in das GEDCOM-Format überführen kann. Meine Überraschung war riesengroß, denn das eröffnet für uns Ahnenforscher ungeahnte Möglichkeiten. Denn nun können unstrukturierte Informationen direkt in einem beliebigen Genealogieprogramm weiter analysiert, mit zusätzlichen Daten angereichert und natürlich auch als Stammbaum visualisiert werden. Daten, wie sie beim Verein für Computergenealogie e.V. (CompGen) bereits in vielen Datenbanken vorliegen, etwa aus Adressbüchern, Familienanzeigen oder Totenzetteln können vielleicht bereits in naher Zukunft durch ChatGPT strukturiert erfasst und über den Weg als GEDCOM-Datei in die riesige GEDBAS-Datenbank des Vereins überführt werden. Dort können die Informationen dann durchsucht und mit den vorhandenen Stammbäumen abgeglichen werden. Die Idee dahinter existiert unter dem Begriff “gedbas4all” schon seit fast zwei Jahrzehnten im CompGen-Verein, aber nun scheint es endlich dafür eine realistische Umsetzungsmöglichkeit zu geben.
Vom Text über eine Tabelle zum GEDCOM-Code
Wie habe ich diese erstaunliche Möglichkeit in ChatGPT entdeckt? Mein längst verstorbener Großvater, Rudolf Hartenthaler, hat im Februar 1983 seine Biografie auf 80 Seiten fertig gestellt, die er damals mit der Schreibmaschine verfasst hat. Um die genealogisch relevanten Informationen daraus auszuwerten, hatte ich mir für eine längere Zugfahrt am letzten Freitag vorgenommen,
- Transkription der Biografie mit Transkribus,
- Inhaltliche Erschließung mit ChatGPT.
Im ersten Schritt teste ich das Vorgehen mit der ersten Seite der Biografie. Ich fotografiere sie einfach ab. Dann setze ich die erste Künstliche Intelligenz ein: Transkribus erkennt den Text fast fehlerfrei. Nun kommt die nächste KI zum Einsatz: ChatGPT soll den Text lesen, auswerten und aufbereiten. Dazu bastle ich an den „Prompts“ (den Eingabeaufforderungen), die die Aufgabe für ChatGPT definieren. Zunächst übergebe ich an ChatGPT den transkribierten Text mit der Aufforderung ihn zu glätten, etwa die Trennungsfugen an den Zeilenenden zu entfernen, die Transkriptions- und Rechtschreibefehler zu entfernen. Perfekt.
Nun fordere ich ChatGPT auf, die in der Biografie vorkommenden Personen, ihre Beziehungen zum Ich-Erzähler und die zugehörigen Ereignisse zu ermitteln. Nach ein paar Versuchen ist auch diese Aufgabe, wie erwartet gemeistert.
Beim ersten Anlauf wurden zwar viele Angaben im Text gut tabellarisch aufbereitet, aber – wie schon bekannt – “halluziniert” diese KI manchmal. Das liegt in ihrer Natur begründet, da sie kein faktenbasiertes Basiswissen verwendet, sondern nur “wahrscheinliche” Abfolgen von Wörtern und Sätzen erzeugt. Plötzlich tauchte in der Liste der Ereignisse aus dem Leben meines Großvaters ein Schulerlebnis auf, das gut klang, aber in der Biografie gar nicht vorkommt.
Genealogie lebt aber davon, dass alle Aussagen und Schlussfolgerungen durch zuverlässige Quellen belegt sind. Es gilt also die Prompts sorgfältig zu wählen und alle Ergebnisse gut zu prüfen, wenn man ChatGPT für die Genealogie verwenden möchte.
Nun aber kam es zur Überraschung: die gewonnenen Ergebnisse können durch ChatGPT direkt in GEDCOM-Code verpackt werden. Der erzeugte Code ist bis auf eine Kleinigkeit (eingestreute Leerzeilen) mit dem GEDCOM-Standard 5.5.1 konform, er ließ sich problemlos in das von mir genutzte Genealogieprogramm webtrees importieren und somit flexibel weiter bearbeiten, z.B. mit meinem eigenen Stammbaum verschmelzen.
Heureka! Das war viel mehr als ich mir für die (inzwischen extralange Bahnfahrt) vorgenommen hatte!
Wie geht es weiter mit ChatGPT in der Genealogie?
Welche Probleme bestehen noch? Nun, derzeit habe ich nur das kostenfreie Angebot von ChatGPT genutzt. Die Menge an Text, die man analysieren kann, ist beschränkt. Für eine Seite aus der Biografie reicht es, aber die 80 Seiten sind so noch nicht auswertbar. Aber schon in naher Zukunft soll mehr gehen, und es gibt auch kommerzielle Angebote von ChatGPT mit mehr Möglichkeiten. Der Weg in eine neue Welt der Genealogie ist klar sichtbar. Zeit um aus Visionen Realität zu machen.
Zu Hause habe ich dann bei der weiteren Recherche gefunden, dass ich nicht als erster auf diese erstaunliche Fähigkeit von ChatGPT gestoßen bin: Sie ist in dem englischsprachigen Forum AI Genealogy Insights bereits beschrieben worden. Wer mehr zum Einsatz von Künstlicher Intelligenz in der Genealogie lesen möchten, findet einen passenden Artikel im GenWiKi des CompGen-Vereins.
Hiermit eröffnen wir die Diskussion zu diesem äußerst spannenden Thema auf unserer Kommunikationsplattform “Discourse” und laden herzlich ein, sich dort über die neuen Möglichkeiten und Risiken auszutauschen.
Dieses Werk ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz.