Erstellen einer Wissensbasis für die Versicherungsbranche
Ein Versicherungslexikon soll mittels Text-Extraktion und Natural Language Processing in eine digitale Wissensbasis umgewandelt werden.
Henz, Joël, 2019
Art der Arbeit Bachelor Thesis
Auftraggebende Insitut für Wirtschaftsinformatik, Hochschule für Wirtschaft
Betreuende Dozierende Pustulka, Elzbieta
Keywords Versicherungsbranche, Versicherungspolicen, Versicherungslexikon, Hierarchie, Taxonomie, Wissensbasis, NLP, Text-Extraktion, Python
Views: 27
Ein Versicherungslexikon besteht aus rund 3000 Begriffen. Diese Begriffe sollen in eine digitale Wissensbasis umgewandelt werden. Die erstellte Wissensbasis dient als Grundlage für ein Projekt, welches zum Ziel hat, Versicherungspolicen vergleichen zu können und das vorhandene Wissen zusammenzuführen. Im Bereich des Wissensmanagements können Wissensbasen bspw. als Taxonomien (Hierarchien) repräsentiert werden. Die in dieser Thesis erstellte Wissensbasis soll mit einer hierarchischen Struktur abgeliefert werden. Um die Hierarchie zu erstellen wurden "ist-eine/ein"-Beziehungen zwischen den Lexikon-Begriffen gesucht.
Zuerst wurde das Versicherungslexikon von PDF zu Word konvertiert und manuell bearbeitet, damit der Text extrahiert werden kann. Für diesen sowie den weiteren Tasks dieser Thesis wurde die Anaconda-Distribution mit der Entwicklungsumgebung Spyder verwendet. Als Programmiersprache wurde Python eingesetzt. Nachdem der Text aus dem Word-File extrahiert wurde, wurde dieser als XML-File repräsentiert und abgespeichert. Dabei wurde jeder Lexikon-Begriff als eigenständiges XML-Element abgebildet, inkl. Textbausteine wie Beschreibung, Synonyme etc. Nach der Text-Extraktionsphase wurden die Lexikon-Begriffe mittels NLP-Verfahren und selbst definierten Regeln hierarchisch eingeordnet.
Das Ergebnis ist eine digitale Wissensbasis in Form eines XML-Files. Mithilfe der lexikalischen Datenbank GermaNet wurde das Versicherungslexikon ergänzt mit neuen Oberbegriffen, welche Unterbegriffe im XML-File aufnehmen. Auch unter den Lexikon-Begriffen selbst wurden Oberbegriff-Unterbegriff-Paare gebildet. Bspw. nahm der Begriff "Versicherung", welcher im Versicherungslexikon vorkommt, Unterbegriffe auf wie "Kfz-Versicherung", "Transportversicherung" oder "Invaliditätsversicherung", welche ebenfalls im Versicherungslexikon vorkommen.
Die erstellte Wissensbasis in Form eines strukturierten XML-Files kann an weitere digitale Prozesse weitergegeben werden. Einerseits kann die Wissensbasis als Grundlage für eine Suchmaschine dienen, mit welcher Wissen rund um die Versicherungsbranche abgefragt werden kann. Andererseits können in die XML-Elemente Daten von Versicherungspolicen in Form von Instanzen implementiert werden. Dies wurde auch demonstriert mit einem Python-Skript, welches die JSON-Daten einer Fahrzeugpolice eines Volvo-Fahrzeuges extrahierte und in das XML-Element "Kfz-Versicherung" implementierte.
Studiengang: Wirtschaftsinformatik (Bachelor)
Vertraulichkeit: vertraulich