Experiment zu double keying
Original-Text aus dem Blog des Institut für Informatik der CAU Kiel
Bei der Erfassung von textuellen Einträgen aus historischen Dokumenten in einem Crowdsourcing Projekt ist die Qualität der Ergebnisse besonders wichtig. Zu diesem Zweck wurde im Zuge der Masterarbeit “Entwicklung und Bewertung von Verfahren zur hochqualitativen und effizienten semi-automatischen Text- und Strukturerkennung bei historischen Quellen” in den vergangenen Monaten das Dateneingabesystem des Vereins für Computergenealogie (CompGen-DES) durch ein Instrument zur Sicherung der Qualität der Daten erweitert.
Bisher verwendete das Dateneingabesystem das Prinzip der einfachen Erfassung, in dem jeder Eintrag einmal erfasst wurde. Wenn auf einer Seite alle Einträge erfasst waren, wurde die Seite von einem Nutzer als fertig gemeldet. Das neue Instrument, welches die Qualität der Daten sichern soll, ist die n-fache Erfassung, dabei wird jeder Eintrag initial von zwei Nutzern erfasst, danach werden die Einträge verglichen. Gibt es eine Übereinstimmung, wird angenommen, dass der Eintrag korrekt erfasst wurde. Gibt es beim Vergleich keine Übereinstimmung, so wird der Eintrag erneut erfasst, bis zwischen den Nutzern eine mehrheitliche Übereinstimmung gefunden wird. Eine Seite ist damit erst fertig erfasst, wenn für alle Einträge eine solche Übereinstimmung gefunden wurde.
Der Vergleich und alle dazugehörigen Regelungen werden vom System übernommen, der Nutzer kann wie gewohnt die Bearbeitung einer Seite durchführen. Um nun die Qualität der einfachen Erfassung und die der n-fachen Erfassung gegenüberstellen zu können, benötigt man eine Seite, deren Erfassungsergebnis bereits bekannt ist. Diese bekannte Ergebnismenge bezeichnet man auch als Ground Truth. Durch die Ground Truth lässt sich bereits nach der ersten Erfassung einer Seite feststellen, wie hoch die Abweichungen der Erfassung von dem Idealergebnis sind. Würde man die Ground Truth nicht kennen, so könnte man zwischen den Erfassungsarten nur die Verbesserung von einer zur nächsten Erfassung darstellen, sich aber nicht auf die Güte der Daten beziehen.
Aus diesem Grund wurde im Dateneingabesystem ein Testprojekt angelegt, in welchem sich viele “Scans” einer Seite befinden, die aus bereits bekannten Daten generiert wurde. Diese Seite wurde der Liste der deutschen Internierten in der Schweiz von 1916 nachempfunden, da hier besonders viele interessante Fälle vorkommen.
Für die Auswertung hoffen wir auf möglichst viele fleißige Mithelfer, die sich an diesem Test beteiligen, indem Sie eine oder mehrere Seiten in dem Testprojekt erfassen.
Hier geht es zum Testprojekt. Vorher sollte man sich jedoch die Bedienungsanleitung des DES und die Editionsrichtlinien durchlesen, damit man auch alles so eingibt, wie geplant. Man braucht zum Mitmachen allerdings einen (kostenlose) Nutzeraccount von genealogy.net.
Bildunterschrift: Generierte Seite im Aussehen der Schweizer Interniertenlisten von 1916 ähnlich
Allen Teilnehmenden vielen Dank, dass Sie sich die Zeit nehmen und aktiv an der Verbesserung des Dateneingabesystems mitwirken.
Original-Text aus dem Blog des Institut für Informatik der CAU Kiel
https://comsys.informatik.uni-kiel.de/res/experiment-zu-double-keying/