Digitalisierung der Verzeichnisse der gedruckten Bände (Edition)
Die zentrale Aufgabe der vorliegenden Bachelorarbeit ist es, den Prozess des Indexierens anhand der vorhandenen digitalen Informationen zu optimieren. Als Ergebnis der Bachelorarbeit steht ein Prototyp zur automatischen Zuordnung der Indizes eines Bandes.
Zwahlen, Simone, 2014
Art der Arbeit Bachelor Thesis
Auftraggebende Forschungsstelle Diplomatische Dokumente der Schweiz
Betreuende Dozierende Riesen, Kaspar
Keywords Automatische Indexierung, XML, QlikView
Views: 37 - Downloads: 0
Die Diplomatischen Dokumente der Schweiz sind ein Projekt zur Edition zentraler Dokumente zur Geschichte der schweizerischen Aussenbeziehungen. Die zentralen Produkte der DDS sind die Internet-Datenbank Dodis und die gedruckten Bände der Akten-Edition.
Die zentrale Aufgabe ist es, den Prozess des Indexierens anhand der vorhandenen digitalen Informationen zu optimieren. Aktuell existiert je ein Personen-, Orts- und Organisationsindex in den Bänden. Nun sollen die in den Dokumenten vorhandenen Personen und Orte automatisch anhand des Index den jeweiligen Dokumenten zugeordnet werden.
In einem ersten Schritt wurden die vorhandenen XML-Dateien eines Bandes analysiert. Es galt heraus zu finden, wie die Inhalte in den XML-Dateien abgelegt wurden. Als Ergebnis dieser Analyse standen die Informationen, wie die Seitenzahlen und Dokumentnummern in den XML-Dateien abgelegt sind. Für die Erarbeitung des Workflows wurde die Software „QlikView“ ausgewählt, in welcher ein Datenmodell aufgebaut wurde. Dieses Datenmodell ordnet die vorhandenen Personen und Orte den jeweiligen Dokumenten zu.
Mit der Software QlikView konnte der Prozess der Indexierung fast automatisch ausgeführt werden. Zwei Drittel der Dokumentnummern wurden den Personen und Orten richtig zugewiesen. Lediglich bei Dokumentnummern, die sich in der Mitte einer Seite befinden, bedarf es einer manuellen Überprüfung. Eine korrekte Zuweisung wäre hier nur möglich, falls die Keywords sowohl im Index als auch auf den Seiten hundertprozentig übereinstimmen würden. Da aber die im Ortsindex erwähnten Orte auf den Dokumenten auf Deutsch und Französisch vorkommen können, ist dies nicht möglich. Weiter sind die Personen im Personenindex mit „Nachname, Vorname“ aufgelistet, während diese auf den Seiten nur mit „Nachname“ oder aber auch mit „Vorname Nachname“ vorkommen können.
Trotz dieser Diskrepanz benötigt der Auftraggeber nun viel weniger Zeit, um bei einem Band die Indizes zuzuordnen, da bis anhin alles manuell erfasst wurde.
Studiengang: Wirtschaftsinformatik (Bachelor)
Vertraulichkeit: öffentlich