Modellierung sowie Extraktion strukturierter Daten aus der Haushaltsversicherung

Die manuelle Extraktion von strukturierten Daten aus unstrukturierten Dokumenten ist ein sehr mühsamer und zeitintensiver Prozess. Es stellt sich somit die Frage, wie ein solcher Prozess mit Hilfe diverser Techniken des maschinellen Lernens automatisiert werden kann.

Mushkolaj, Rijon, 2020

Art der Arbeit Bachelor Thesis
Auftraggebende Institut für Wirtschaftsinformatik, HSW FHNW
Betreuende Dozierende Pustulka, Elzbieta
Keywords Versicherungsbranche, Datenmodellierung, Machine-Learning, Prozessautomatisierung, Informationsextraktion
Views: 36
Der Prozess für die Versicherungsbroker, bei dem die Policendaten manuell extrahiert und verglichen werden, ist äusserst mühsam und zeitaufwändig. Daraufhin wurde das Innosuisse Projekt, bei dem die FIVE Informatik gemeinsam mit der FHNW an einer Lösung zur automatisierten Extraktion von strukturierten Daten aus unstrukturierten Dokumenten arbeitet, initiiert. Es wurden bereits Prototypen für diverse Versicherungsarten und deren Policen-Dokumente entwickelt. Die vorliegende Bachelorarbeit knüpft somit an das laufende Innosuise-Projekt an, und setzt den Schwerpunkt auf die Haushaltversicherung.
Zu Beginn wurde das Grundwissen mit Hilfe der erhaltenen Literatur aufgebaut. Nachdem das Grundwissen vorhanden war, wurde mit dem praktischen Teil der Arbeit begonnen. Hierfür musste ein Datenmodell für die Haushaltversicherung aufgebaut werden. Nachdem das Datenmodell verfügbar war, konnte das Trainingset für die auf maschinellem Lernen basierenden Skripte vorbereitet werden. Abschliessend wurde das Traingset mit Hilfe der Skripte auf die Meta/Value-Vorhersagen sowie die Label-Mapping-Bestimmungen mit diversen Klassifikatoren getestet und die resultierten Ergebnisse wurden präsentiert.
Zu Beginn wurde das Datenmodell entwickelt, indem die Policen des Bereichs Haushalt der verschiedenen Versicherer miteinander verglichen wurden. Es stellte sich heraus, dass eine Haushaltsversicherung grundsätzlich die beiden Versicherungsarten Hausratversicherung und Privathaftpflichtversicherung umfasst. Nachdem das Datenmodell für den Haushaltsbereich modelliert wurde, konnten die mit Hilfe des pdfminers extrahierten Policen-Dokumente mit den im Datenmodell definierten Attributen annotiert werden. Das Resultat waren Annotierte Dokumente, die anschliessend als Trainingset für die erhaltenen Skripte dienten. Am Ende wurden die Ergebnisse, die aus den Skripten resultierten präsentiert und einige Verbesserungsvorschläge gemacht.
Studiengang: Wirtschaftsinformatik (Bachelor)
Vertraulichkeit: vertraulich
Art der Arbeit
Bachelor Thesis
Auftraggebende
Institut für Wirtschaftsinformatik, HSW FHNW, Olten
Autorinnen und Autoren
Mushkolaj, Rijon
Betreuende Dozierende
Pustulka, Elzbieta
Publikationsjahr
2020
Sprache der Arbeit
Deutsch
Vertraulichkeit
vertraulich
Studiengang
Wirtschaftsinformatik (Bachelor)
Standort Studiengang
Olten
Keywords
Versicherungsbranche, Datenmodellierung, Machine-Learning, Prozessautomatisierung, Informationsextraktion