FamilySearch-Tagung “Erinnern – Erneuern – Bewahren”
Am 10. und 11. November 2022 hat FamilySearch International in Dresden eine Fachtagung unter dem Motto “Erinnern – Erneuern – Bewahren“ veranstaltet, zu der in erster Linie Vertreter(innen) von Archiven, aber auch von genealogischen Organisationen in Europa und den USA eingeladen waren. CompGen habe ich als 1. Vorsitzender vertreten. Von so einer Tagung profitiert man natürlich in erster Linie außerhalb der eigentlichen Veranstaltungen, in den Gesprächen am Frühstücksbuffet, in der Pause oder am Abend – aber auch im Rahmen der konkreten vier Workshops, in denen FamilySearch-Aktive über wichtige Themen der digitalen Erschließung geschichtlicher Personendaten berichteten.
Vier Workshops
Der Workshop „Data Protection in the EU“ stellte die ganze Breite unterschiedlicher Erfahrungen und Methoden im Umgang mit dem Schutz von Daten Lebender vor, die FamilySearch über die Zeit und in verschiedenen Ländern gesammelt hat. Das Spektrum reicht von den 1990er Jahren, als jüngere Mitarbeiter noch stundenlang mit dem Skalpell auf Mikrofilmen herumkratzten, um die sporadisch in Randnotizen vorkommenden Daten Lebender zu entfernen, bis hin zur heutigen Praxis des britischen National Archive, das Jahr für Jahr Daten auf der Ebene von Individuen entschwärzt und – wenn sie sich als lebend entpuppen – auch wieder schwärzt.
In den Workshop „Archive/Library Digital Reading Room Tools“ mit Pablo D. Garaguso konnte ich nur kurz hineinschnuppern. Für CompGen als reine Online-Organisation war er wahrscheinlich nicht sehr relevant, sehr wohl aber für Vereine oder Archive, die über Bestände vor Ort verfügen, die dann auch nur offline vor Ort oder per VPN einsehbar sein sollen. Hier stellt FamilySearch mit dem Digital Reading Room ein Gratis-Tool zur Verfügung, das man mit eigenen Digitalisaten und Metadaten füllen kann. Leider scheint es sich nicht (oder noch nicht) um eine Open-Source-Software zu handeln, was ihre Verbreitung in deutschen Archiven sicherlich befördern würde.
Besonders für die Vertreter(innen) von Archiven, aber auch für mich aufregend war der Workshop zu „Advancements in Scanning and Redaction Technology“. Hier ging es tatsächlich um zweierlei. Erstens wurde ein neuer Hochleistungsscanner vorgestellt, der unter anderem gut geeignet ist, größere Karteien, aber auch empfindliche Materialien einzulesen, mit einem Tempo von 120 Blatt pro Minute oder mehr. Mit zum Lieferumfang gehört aber leider keine Schar von Heinzelmännchen, die im selben Tempo auch die Metadaten für jedes Blatt erfassen. Vor dem Gerät bildete sich eine Schlange von Mitarbeiter(inne)n aus Archiven, die es mal anfassen wollten – angesichts des fünfstelligen Preises wahrscheinlich zum einzigen Mal. Zweitens stellte aber Steve Turley, Physiker an der Brigham Young University, Strategien der Dokumentenerkennung vor, die seine Arbeitsgruppe bei der Arbeit an Friedhofskarteien verfolgt hatte. Hierbei ging es dabei, „genetische Algorithmen“ zu trainieren, um Strukturen von Formularen zu erkennen und so große Quellenmengen lesbar zu machen – ein Verfahren, mit dem er aus seiner Arbeit an Weltraumteleskopen vertraut ist. In ihrer Interdisziplinarität besteht sicherlich der große Reiz, den digitale Geschichte gegenwärtig mehr denn je ausmacht – vorausgesetzt, die Expertise aus den verschiedenen Disziplinen findet auch auf der Ebene der Kommunikation wirklich zusammen.
Dasselbe, für CompGen wie für die digitalen Geisteswissenschaften generell wichtige Thema der Schrifterkennung stand im Workshop „Computer Assisted Editing“ im Zentrum. Ausgangspunkt war auch hier das Erkennen von Texten mithilfe von künstlicher Intelligenz. Vorgestellt wurden Verfahren, die FamilySearch für sein Ziel einer sehr raschen Datenerschließung einsetzen will: vom Digitalisat zur Indexierung soll es in einigen Jahren nicht länger als 24 Stunden dauern. Die Texterkennung ist dabei ein erster Schritt. Dabei werden nicht nur die Buchstaben und Wörter erkannt, sondern man lässt – an farbiger Untermalung erkennbar – auch die Funktion dieser Wörter (sozusagen die Wortart) als Namen, Orte, Datumsangabe usw. vom Computer ermitteln. Hierfür werden entsprechende Vokabulare genutzt, aber auch andere KI-Verfahren. Langfristig angestrebt wird, auch die Rollen der benannten Personen (z.B. als Ehemann und Ehefrau) automatisch zu erkennen. Hier drängt sich eine Frage auf, die sich auch CompGen mit Blick auf seine DES-Projekte und auf seine Rolle als Gründungsmitglied von READ-COOP (also dem Träger von Transkribus) stellen muss, nämlich: Wenn sich die Technik der automatischen Texterfassung so sehr verbessert, was für Aufgaben wird es denn dann in Zukunft für die vielen Menschen geben, die geschichtliche Quellen mit viel Engagement und Freude indexieren oder erfassen? Die Antwort von FamilySearch ist die, dass es erstens das klassische Indexieren sicherlich noch ein Jahrzehnt lang geben wird, und zweitens, dass jetzt neue Formen des Mitmachens entwickelt werden. Wer mitmachen will, bearbeitet also nicht mehr ganze Quellen-Batche in etwa einer Dreiviertelstunde, sondern antwortet – auch am Mobilgerät – auf kleine Korrekturfragen, um z.B. zu klären, ob ein einzelner Name richtig erkannt wurde.
Ein persönlicher Eindruck
FamilySearch ist ein sehr großer Akteur in unserem Feld. Das hat Vor- und Nachteile. Ein großer Vorteil ist der, dass es eine Organisation gibt, die tatsächlich Standards setzen kann, an die sich – hoffentlich – alle anderen halten müssen, wie den GEDCOM-Standard. Im besten Fall kann eine kleinere Organisation wie CompGen eigene Ideen und Anliegen in diesen Prozess des Standardsetzens einbringen, wie es unserer Programmautorengruppe (der GEDCOM-L) beim Erarbeiten von GEDCOM 7.0 gelungen ist. Ein Nachteil ist der, dass FamilySearch so groß ist, dass sie es schaffen könnten, attraktive neue Insellösungen für jedes relevante Problem zu finden, also jedes größere Rad neu zu erfinden. Das muss nicht wirklich schlecht sein, wenn es denn zu einem wechselseitigen Gedankenaustausch kommt. Aber ich bin mir nicht sicher, dass gerade beim Thema der strukturierten algorithmischen Erfassung personenbezogener Informationen aus digitalisierten Quellen die drei großen Arbeitszusammenhänge von Genealogieinformatik (also u.a. eben FamilySearch), Historischer Demographie (z.B. das Pariser POPP-Projekt von Sandra Brée oder die dänische LinkLives-Gruppe) und Digital History (z.B. Transkribus, aber auch das neu bewilligte Konsortium NFDI4memory) überhaupt voneinander wissen.