DES - Captchas • Verein für Computergenealogie e.V. (CompGen)

Seit einigen Wochen verwenden wir an einigen Stellen im genealogy.net Captchas. Üblicherweise begegnen einem Captchas in Form verzerrter Zahlen- und Buchstabenkombinationen z.B. beim Anmelden bei einem Newsletter. Damit soll nachgewiesen werden, dass ein Mensch vor dem Computer sitzt und nicht etwa ein Programm hundertfache Anmeldungen zum Spamversenden vornimmt.

Unsere Captchas sehen ein wenig anders aus, denn neben dem Ziel der Abwehr von automatischen Massenbenutzungen wollen wir gleichzeitig auch die Eingaben sinnvoll nutzen. Als erste Daten haben wir dazu die Geburtsdaten aus den deutschen Verlustlisten des 1. Weltkriegs ausgewählt.

Der Nutzer bekommt zwei Schnipsel mit Einträgen aus den Verlustlisten angezeigt, z.B. so

Der Trick besteht darin, dass wir bei einem der Einträge bereits die richtige Lösung kennen. Mal ist es der erste, mal ist es ist der zweite Eintrag. Auf diese Weise können wir überprüfen, dass tatsächlich ein Mensch die Lösung eingegeben hat. Ist der Kontrolleintrag richtig, so liegt die Vermutung nahe, dass auch das zweite (bislang unbekannte) Datum richtig eingegeben wurde. Die Eingabe speichern wir ab. Damit eine gute Datenqualität erreicht wird, reicht uns jedoch nicht eine einzige Eingabe eines unbekannten Datums, sondern es muss drei Mal das gleiche Datum eingegeben werden. Werden unterschiedliche Datumsangaben eingegeben, muss ein Feld entsprechend häufiger bearbeitet werden, bis das Datum übernommen wird.

Ich habe mich gefragt, wie oft das klappt. Reichen drei identische Eingaben oder geben die Nutzer zu viele unterschiedliche Werte ein? Dazu habe ich mir 1.500 fertig bearbeitete Einträge angesehen. Insgesamt wurden dabei 4.810 Eingaben getätigt (wie oben geschildert: jeder Eintrag mindestens drei Mal, bei Abweichungen auch häufiger). Dabei hat sich ergeben, dass bei 83,3% der Einträge drei identische Eingaben gemacht wurden. Bei 13,9% gab es eine abweichende Eingabe, es waren also vier Versuche notwendig. Lediglich bei 2,8% der Einträge waren mehr als fünf Versuche erforderlich. Das Verfahren funktioniert also gut, die meisten Nutzer geben ein richtiges Datum ein.

Welche Fehler werden am häufigsten gemacht? Der mit 19.1% häufigste Fehler waren eingefügte Nullen bei Tag und Monat, die es im Original gar nicht gab. Ein paar Nutzer scheinen nicht verstanden zu haben, dass man das Geburtsdatum abschreiben soll und haben stattdessen den Namen noch einmal abgeschrieben. Das war bei 7% der Eingaben der Fall. Es folgen einige Zahlendreher, wobei eine als 6 gelesene 5 der häufigste Fall (5%) war. Es folgen 9 gelesen als 8, 3 gelesen als 2, 8 gelesen als 9 und 5 gelesen als 3 (jeweils aber weniger als 3% Vorkommen).

Wenn ein Eintrag nicht zu entziffern ist, hat man die Möglichkeit, sich ein neues Captcha geben zu lassen. Wurde ein Eintrag zu oft als unlesbar gemeldet, wird er aus der Erfassung genommen. Es besteht das Risiko, dass auch ein gut lesbarer Eintrag fälschlicherweise als unlesbar markiert wird. Um dies zu untersuchen, habe ich mir angesehen, wie oft die fertigen Einträge als fehlerhaft gemeldet wurden:

Fast die Hälfte der Einträge wurde (korrekt) nie als “unlesbar” gemeldet. Etwa ein Viertel wurde einmal, 14% wurden zwei Mal, 6.8% drei Mal und 4.1% vier oder mehrere Male als angeblich unlesbar gemeldet. In den meisten Fällen haben die Nutzer also richtig entschieden, ob ein Eintrag unlesbar ist. Es lohnt sich aber trotzdem, nochmal einen Blick auf die abgelehnten Einträge zu werfen.

(Dr. Jesper Zedlitz)