Transkribus macht Amsterdamer Notarakten lesbar
Wer kann die alten Dokumente aus dem 17. und 18. Jahrhundert besser lesen – der Computer oder der Durchschnittsmensch? Zum ersten Mal wurden 15.000 handgeschriebenen Seiten aus den Amsterdamer Notariatsakten des 17. und 18. Jahrhunderts lesbar und durchsuchbar gemacht.
Es ist das erste Ergebnis des Projekts “Crowd Leert Computer Lezen”, in dem Freiwillige seit 2018 Transkripte anfertigen und korrigieren, um Computermodelle in der handschriftlichen Texterkennung (HTR) zu trainieren. Die “Übersetzung” der Manuskripte enthält sowohl die von Menschen überprüfte und korrigierte Fassung als auch die Ergebnisse der automatisch generierten HTR. Das Projekt ist der Kooperation der Plattform “VeleHanden” (“Viele Hände” von über 20.000 Freiwilligen) und dem Amsterdamer Stadtarchiv zu verdanken.
Mit der Transkribus Read&Search-Oberfläche kann der gesamte computergelesene Text nach Stichworten auf einmal durchsucht werden. Zur Zeit enthält die durchsuchbare Sammlung mehr als 300.000 Scans von verschiedenen Amsterdamer Notaren. Die Suche in den Seiten erfolgt mit dem keyword spotting Tool von Transkribus.
Das Amsterdamer Stadtarchiv bewahrt insgesamt 30.000 Bände von über dreißig Notaren aus der Zeit von 1578-1915 auf. Sie füllen 3,5 km der Regale im Archiv.
Auch andere Archive und das Nationalarchiv der Niederlande haben digitalisierte Archivstücke zur Transkribierung ausgewählt. In den regionalen Archiven werden ebenfalls Notariatsakten bearbeitet. Das Nationalarchiv hat u.a. das gesamte Archiv der Vereinigten Ostindischen Companie (VOC) digitalisiert. Vorhandene Transkriptionen von VOC-Akten sollen mit den Scans in Transkribus gekoppelt werden, um das System zu trainieren.
Bob Coret hat sich die frei zugängliche Suche zu Nutze gemacht und bietet auf seiner Seite openarchives.nl die Möglichkeit an, in den VOC-Akten und weiteren Archivmaterialien des Nationalarchivs und in Notariatsakten des Nord-Holland-Archivs in Haarlem zu suchen.