Modellierung sowie Extraktion strukturierter Daten aus der Haushaltsversicherung
Die manuelle Extraktion von strukturierten Daten aus unstrukturierten Dokumenten ist ein sehr mühsamer und zeitintensiver Prozess. Es stellt sich somit die Frage, wie ein solcher Prozess mit Hilfe diverser Techniken des maschinellen Lernens automatisiert werden kann.
Mushkolaj, Rijon, 2020
Type of Thesis Bachelor Thesis
Client Institut für Wirtschaftsinformatik, HSW FHNW
Supervisor Pustulka, Elzbieta
Views: 51
Der Prozess für die Versicherungsbroker, bei dem die Policendaten manuell extrahiert und verglichen werden, ist äusserst mühsam und zeitaufwändig. Daraufhin wurde das Innosuisse Projekt, bei dem die FIVE Informatik gemeinsam mit der FHNW an einer Lösung zur automatisierten Extraktion von strukturierten Daten aus unstrukturierten Dokumenten arbeitet, initiiert. Es wurden bereits Prototypen für diverse Versicherungsarten und deren Policen-Dokumente entwickelt. Die vorliegende Bachelorarbeit knüpft somit an das laufende Innosuise-Projekt an, und setzt den Schwerpunkt auf die Haushaltversicherung.
Zu Beginn wurde das Grundwissen mit Hilfe der erhaltenen Literatur aufgebaut.
Nachdem das Grundwissen vorhanden war, wurde mit dem praktischen Teil der Arbeit begonnen. Hierfür musste ein Datenmodell für die Haushaltversicherung aufgebaut werden. Nachdem das Datenmodell verfügbar war, konnte das Trainingset für die auf maschinellem Lernen basierenden Skripte vorbereitet werden. Abschliessend wurde das Traingset mit Hilfe der Skripte auf die Meta/Value-Vorhersagen sowie die Label-Mapping-Bestimmungen mit diversen Klassifikatoren getestet und die resultierten Ergebnisse wurden präsentiert.
Zu Beginn wurde das Datenmodell entwickelt, indem die Policen des Bereichs Haushalt der verschiedenen Versicherer miteinander verglichen wurden. Es stellte sich heraus, dass eine Haushaltsversicherung grundsätzlich die beiden Versicherungsarten Hausratversicherung und Privathaftpflichtversicherung umfasst.
Nachdem das Datenmodell für den Haushaltsbereich modelliert wurde, konnten die mit Hilfe des pdfminers extrahierten Policen-Dokumente mit den im Datenmodell definierten Attributen annotiert werden. Das Resultat waren Annotierte Dokumente, die anschliessend als Trainingset für die erhaltenen Skripte dienten. Am Ende wurden die Ergebnisse, die aus den Skripten resultierten präsentiert und einige Verbesserungsvorschläge gemacht.
Studyprogram: Wirtschaftsinformatik (Bachelor)
Keywords Versicherungsbranche, Datenmodellierung, Machine-Learning, Prozessautomatisierung, Informationsextraktion
Confidentiality: vertraulich