Erstellen einer Wissensbasis für die Versicherungsbranche

Ein Versicherungslexikon soll mittels Text-Extraktion und Natural Language Processing in eine digitale Wissensbasis umgewandelt werden.

Henz, Joël, 2019

Type of Thesis Bachelor Thesis
Client Insitut für Wirtschaftsinformatik, Hochschule für Wirtschaft
Supervisor Pustulka, Elzbieta
Views: 28
Ein Versicherungslexikon besteht aus rund 3000 Begriffen. Diese Begriffe sollen in eine digitale Wissensbasis umgewandelt werden. Die erstellte Wissensbasis dient als Grundlage für ein Projekt, welches zum Ziel hat, Versicherungspolicen vergleichen zu können und das vorhandene Wissen zusammenzuführen. Im Bereich des Wissensmanagements können Wissensbasen bspw. als Taxonomien (Hierarchien) repräsentiert werden. Die in dieser Thesis erstellte Wissensbasis soll mit einer hierarchischen Struktur abgeliefert werden. Um die Hierarchie zu erstellen wurden "ist-eine/ein"-Beziehungen zwischen den Lexikon-Begriffen gesucht.
Zuerst wurde das Versicherungslexikon von PDF zu Word konvertiert und manuell bearbeitet, damit der Text extrahiert werden kann. Für diesen sowie den weiteren Tasks dieser Thesis wurde die Anaconda-Distribution mit der Entwicklungsumgebung Spyder verwendet. Als Programmiersprache wurde Python eingesetzt. Nachdem der Text aus dem Word-File extrahiert wurde, wurde dieser als XML-File repräsentiert und abgespeichert. Dabei wurde jeder Lexikon-Begriff als eigenständiges XML-Element abgebildet, inkl. Textbausteine wie Beschreibung, Synonyme etc. Nach der Text-Extraktionsphase wurden die Lexikon-Begriffe mittels NLP-Verfahren und selbst definierten Regeln hierarchisch eingeordnet.
Das Ergebnis ist eine digitale Wissensbasis in Form eines XML-Files. Mithilfe der lexikalischen Datenbank GermaNet wurde das Versicherungslexikon ergänzt mit neuen Oberbegriffen, welche Unterbegriffe im XML-File aufnehmen. Auch unter den Lexikon-Begriffen selbst wurden Oberbegriff-Unterbegriff-Paare gebildet. Bspw. nahm der Begriff "Versicherung", welcher im Versicherungslexikon vorkommt, Unterbegriffe auf wie "Kfz-Versicherung", "Transportversicherung" oder "Invaliditätsversicherung", welche ebenfalls im Versicherungslexikon vorkommen. Die erstellte Wissensbasis in Form eines strukturierten XML-Files kann an weitere digitale Prozesse weitergegeben werden. Einerseits kann die Wissensbasis als Grundlage für eine Suchmaschine dienen, mit welcher Wissen rund um die Versicherungsbranche abgefragt werden kann. Andererseits können in die XML-Elemente Daten von Versicherungspolicen in Form von Instanzen implementiert werden. Dies wurde auch demonstriert mit einem Python-Skript, welches die JSON-Daten einer Fahrzeugpolice eines Volvo-Fahrzeuges extrahierte und in das XML-Element "Kfz-Versicherung" implementierte.
Studyprogram: Wirtschaftsinformatik (Bachelor)
Keywords Versicherungsbranche, Versicherungspolicen, Versicherungslexikon, Hierarchie, Taxonomie, Wissensbasis, NLP, Text-Extraktion, Python
Confidentiality: vertraulich
Type of Thesis
Bachelor Thesis
Client
Insitut für Wirtschaftsinformatik, Hochschule für Wirtschaft, Olten
Authors
Henz, Joël
Supervisor
Pustulka, Elzbieta
Publication Year
2019
Thesis Language
German
Confidentiality
Confidential
Studyprogram
Wirtschaftsinformatik (Bachelor)
Location
Olten
Keywords
Versicherungsbranche, Versicherungspolicen, Versicherungslexikon, Hierarchie, Taxonomie, Wissensbasis, NLP, Text-Extraktion, Python