Neuer Import für GEDBAS
Bei GEDBAS, der Datenbank für genealogisch verknüpfte Daten des Vereins für Computergenealogie (CompGen), gab es hinter den Kulissen einen größeren Umbau. Das Verfahren zum Einlesen von GEDCOM-Dateien wurde geändert. Schon mehrfach hatte ich darüber berichtet. dass eine Gigantomanie bei der Größe der GEDCOM-Dateien zu beobachten ist. Dieser Trend hält mittlerweile über zehn Jahre an und nimmt eher zu als ab. Ob dahinter das Motto “Meins, meins!” (man muss es sich im Ton der Möwen aus dem Film “Findet Nemo” vorstellen) oder “Ich habe den größten! (Stammbaum)” steckt – ich weiß ich nicht. Mit seriöser genealogischer Forschung hat es aber meiner Meinung nach nicht viel zu tun, wenn ein Datenbestand innerhalb von einer Woche um 15.000 Personen anwächst. Oder ich bin einfach langsam beim Kirchenbuchauswerten geworden…
Warum muss der GEDBAS-Import geändert werden?
Das ist aber die Realität und daran musste ich nun auch GEDBAS anpassen. Es tauchten immer wieder GEDCOM-Dateien mit einer Größe von 100 MB und mehr auf, die mehrere 100.000 Personen beinhalten. Zu allem Überfluss scheinen auch noch die Leute mit den größten Dateien ihre Daten am häufigsten zu aktualisieren – manche mehrfach am Tag. Das bedeutete bisher das Löschen von tausenden Personeneinträgen, das Einlesen der GEDCOM-Datei, der Ablauf des Datenschutz-Algorithmus, das Abspeichern der Daten in der Datenbank, das Erzeugen eines Suchindex und am Ende ggf. noch das Benachrichtigen über (vermeintlich) neue Daten über die Alerts der Metasuche. So kam es immer öfter dazu, dass der Import von GEDBAS “verstopft” war, weil ein paar dicke Brocken auf den Import wartete und viele “normal” große Dateien dadurch warten mussten.
Neuer Import übernimmt nur geänderte Daten
Nun habe ich den Import so umgebaut, dass möglichst nur Änderungen an der GEDCOM-Datei übernommen werden. Also hinzugefügte Einträge, geänderte Einträge und gelöschte Einträge. Im Idealfall führt das zu einem Fall, den ich im Logfile beobachtet habe: die beim Update hochgeladene GEDCOM-Datei enthält 115.000 Personen, bei der Änderung wurden aber eigentlich nur vier Personen hinzugefügt und eine geändert. So ein Update läuft nun in wenigen Sekunden durch, statt unsere Systeme lange zu belasten.
Ganz perfekt ist die Lösung allerdings nicht. Das liegt an einer Eigenheit der GEDCOM-Spezifikation. Die Identifikatoren von Personen, Familien und Quellen können sich nämlich der Spezifikation zufolge jederzeit ändern. War unter dem Identifikator I50 eben noch Max Mustermann verzeichnet, kann beim nächsten Hochladen unter I50 plötzlich Tina Tester verzeichnet sein. Dann würde mein Algorithmus viele Änderungen bemerken, obwohl sich eigentlich an den Informationen gar nichts geändert hat. Zum Glück behalten aber die meisten Genealogieprogramme trotzdem beim GEDCOM-Export die Identifikatoren von Personen, Familien und Quellen bei, so dass der Import von GEDBAS in der Praxis gut funktioniert.
Ganz wichtig ist jedoch, dass man beim Aktualisieren einer Datei in GEDBAS auch die Funktion “Aktualisierung” verwendet. Löscht man die bisherige Datei und lädt anschließend eine neue Datei (unter neuer Nummer) hoch, funktioniert die effiziente Aktualisierung natürlich nicht.