Digitalisierung der Verzeichnisse der gedruckten Bände (Edition)

Die zentrale Aufgabe der vorliegenden Bachelorarbeit ist es, den Prozess des Indexierens anhand der vorhandenen digitalen Informationen zu optimieren. Als Ergebnis der Bachelorarbeit steht ein Prototyp zur automatischen Zuordnung der Indizes eines Bandes.

Zwahlen, Simone, 2014

Type of Thesis Bachelor Thesis
Client Forschungsstelle Diplomatische Dokumente der Schweiz
Supervisor Riesen, Kaspar
Views: 37 - Downloads: 0
Die Diplomatischen Dokumente der Schweiz sind ein Projekt zur Edition zentraler Dokumente zur Geschichte der schweizerischen Aussenbeziehungen. Die zentralen Produkte der DDS sind die Internet-Datenbank Dodis und die gedruckten Bände der Akten-Edition. Die zentrale Aufgabe ist es, den Prozess des Indexierens anhand der vorhandenen digitalen Informationen zu optimieren. Aktuell existiert je ein Personen-, Orts- und Organisationsindex in den Bänden. Nun sollen die in den Dokumenten vorhandenen Personen und Orte automatisch anhand des Index den jeweiligen Dokumenten zugeordnet werden.
In einem ersten Schritt wurden die vorhandenen XML-Dateien eines Bandes analysiert. Es galt heraus zu finden, wie die Inhalte in den XML-Dateien abgelegt wurden. Als Ergebnis dieser Analyse standen die Informationen, wie die Seitenzahlen und Dokumentnummern in den XML-Dateien abgelegt sind. Für die Erarbeitung des Workflows wurde die Software „QlikView“ ausgewählt, in welcher ein Datenmodell aufgebaut wurde. Dieses Datenmodell ordnet die vorhandenen Personen und Orte den jeweiligen Dokumenten zu.
Mit der Software QlikView konnte der Prozess der Indexierung fast automatisch ausgeführt werden. Zwei Drittel der Dokumentnummern wurden den Personen und Orten richtig zugewiesen. Lediglich bei Dokumentnummern, die sich in der Mitte einer Seite befinden, bedarf es einer manuellen Überprüfung. Eine korrekte Zuweisung wäre hier nur möglich, falls die Keywords sowohl im Index als auch auf den Seiten hundertprozentig übereinstimmen würden. Da aber die im Ortsindex erwähnten Orte auf den Dokumenten auf Deutsch und Französisch vorkommen können, ist dies nicht möglich. Weiter sind die Personen im Personenindex mit „Nachname, Vorname“ aufgelistet, während diese auf den Seiten nur mit „Nachname“ oder aber auch mit „Vorname Nachname“ vorkommen können. Trotz dieser Diskrepanz benötigt der Auftraggeber nun viel weniger Zeit, um bei einem Band die Indizes zuzuordnen, da bis anhin alles manuell erfasst wurde.
Studyprogram: Wirtschaftsinformatik (Bachelor)
Keywords Automatische Indexierung, XML, QlikView
Confidentiality: öffentlich
Type of Thesis
Bachelor Thesis
Client
Forschungsstelle Diplomatische Dokumente der Schweiz, Bern
Authors
Zwahlen, Simone
Supervisor
Riesen, Kaspar
Publication Year
2014
Thesis Language
German
Confidentiality
Public
Studyprogram
Wirtschaftsinformatik (Bachelor)
Location
Olten
Keywords
Automatische Indexierung, XML, QlikView