Erstellen einer Wissensbasis für die Versicherungsbranche

Ein Versicherungslexikon soll mittels Text-Extraktion und Natural Language Processing in eine digitale Wissensbasis umgewandelt werden.

Joël Henz, 2019

Bachelor Thesis, Insitut für Wirtschaftsinformatik, Hochschule für Wirtschaft
Betreuende Dozierende: Elzbieta Pustulka
Keywords: Versicherungsbranche, Versicherungspolicen, Versicherungslexikon, Hierarchie, Taxonomie, Wissensbasis, NLP, Text-Extraktion, Python
Views: 8
Ein Versicherungslexikon besteht aus rund 3000 Begriffen. Diese Begriffe sollen in eine digitale Wissensbasis umgewandelt werden. Die erstellte Wissensbasis dient als Grundlage für ein Projekt, welches zum Ziel hat, Versicherungspolicen vergleichen zu können und das vorhandene Wissen zusammenzuführen. Im Bereich des Wissensmanagements können Wissensbasen bspw. als Taxonomien (Hierarchien) repräsentiert werden. Die in dieser Thesis erstellte Wissensbasis soll mit einer hierarchischen Struktur abgeliefert werden. Um die Hierarchie zu erstellen wurden "ist-eine/ein"-Beziehungen zwischen den Lexikon-Begriffen gesucht.
Zuerst wurde das Versicherungslexikon von PDF zu Word konvertiert und manuell bearbeitet, damit der Text extrahiert werden kann. Für diesen sowie den weiteren Tasks dieser Thesis wurde die Anaconda-Distribution mit der Entwicklungsumgebung Spyder verwendet. Als Programmiersprache wurde Python eingesetzt. Nachdem der Text aus dem Word-File extrahiert wurde, wurde dieser als XML-File repräsentiert und abgespeichert. Dabei wurde jeder Lexikon-Begriff als eigenständiges XML-Element abgebildet, inkl. Textbausteine wie Beschreibung, Synonyme etc. Nach der Text-Extraktionsphase wurden die Lexikon-Begriffe mittels NLP-Verfahren und selbst definierten Regeln hierarchisch eingeordnet.
Das Ergebnis ist eine digitale Wissensbasis in Form eines XML-Files. Mithilfe der lexikalischen Datenbank GermaNet wurde das Versicherungslexikon ergänzt mit neuen Oberbegriffen, welche Unterbegriffe im XML-File aufnehmen. Auch unter den Lexikon-Begriffen selbst wurden Oberbegriff-Unterbegriff-Paare gebildet. Bspw. nahm der Begriff "Versicherung", welcher im Versicherungslexikon vorkommt, Unterbegriffe auf wie "Kfz-Versicherung", "Transportversicherung" oder "Invaliditätsversicherung", welche ebenfalls im Versicherungslexikon vorkommen. Die erstellte Wissensbasis in Form eines strukturierten XML-Files kann an weitere digitale Prozesse weitergegeben werden. Einerseits kann die Wissensbasis als Grundlage für eine Suchmaschine dienen, mit welcher Wissen rund um die Versicherungsbranche abgefragt werden kann. Andererseits können in die XML-Elemente Daten von Versicherungspolicen in Form von Instanzen implementiert werden. Dies wurde auch demonstriert mit einem Python-Skript, welches die JSON-Daten einer Fahrzeugpolice eines Volvo-Fahrzeuges extrahierte und in das XML-Element "Kfz-Versicherung" implementierte.
Studiengang: Wirtschaftsinformatik (Bachelor)
Fachbereich der Arbeit: Wirtschaftsinformatik & IT-Management
Vertraulichkeit: vertraulich
Art der Arbeit
Bachelor Thesis
Auftraggeber
Insitut für Wirtschaftsinformatik, Hochschule für Wirtschaft, Olten
Autorinnen und Autoren
Joël Henz
Betreuende Dozierende
Elzbieta Pustulka
Publikationsjahr
2019
Sprache der Arbeit
Deutsch
Vertraulichkeit
vertraulich
Studiengang
Wirtschaftsinformatik (Bachelor)
Standort Studiengang
Olten
Keywords
Versicherungsbranche, Versicherungspolicen, Versicherungslexikon, Hierarchie, Taxonomie, Wissensbasis, NLP, Text-Extraktion, Python