Modellierung sowie Extraktion strukturierter Daten aus der Haushaltsversicherung

Die manuelle Extraktion von strukturierten Daten aus unstrukturierten Dokumenten ist ein sehr mühsamer und zeitintensiver Prozess. Es stellt sich somit die Frage, wie ein solcher Prozess mit Hilfe diverser Techniken des maschinellen Lernens automatisiert werden kann.

Mushkolaj, Rijon, 2020

Art der Arbeit Bachelor Thesis

Auftraggebende Institut für Wirtschaftsinformatik, HSW FHNW

Betreuende Dozierende Pustulka, Elzbieta

Der Prozess für die Versicherungsbroker, bei dem die Policendaten manuell extrahiert und verglichen werden, ist äusserst mühsam und zeitaufwändig. Daraufhin wurde das Innosuisse Projekt, bei dem die FIVE Informatik gemeinsam mit der FHNW an einer Lösung zur automatisierten Extraktion von strukturierten Daten aus unstrukturierten Dokumenten arbeitet, initiiert. Es wurden bereits Prototypen für diverse Versicherungsarten und deren Policen-Dokumente entwickelt. Die vorliegende Bachelorarbeit knüpft somit an das laufende Innosuise-Projekt an, und setzt den Schwerpunkt auf die Haushaltversicherung.

Zu Beginn wurde das Grundwissen mit Hilfe der erhaltenen Literatur aufgebaut. Nachdem das Grundwissen vorhanden war, wurde mit dem praktischen Teil der Arbeit begonnen. Hierfür musste ein Datenmodell für die Haushaltversicherung aufgebaut werden. Nachdem das Datenmodell verfügbar war, konnte das Trainingset für die auf maschinellem Lernen basierenden Skripte vorbereitet werden. Abschliessend wurde das Traingset mit Hilfe der Skripte auf die Meta/Value-Vorhersagen sowie die Label-Mapping-Bestimmungen mit diversen Klassifikatoren getestet und die resultierten Ergebnisse wurden präsentiert.

Zu Beginn wurde das Datenmodell entwickelt, indem die Policen des Bereichs Haushalt der verschiedenen Versicherer miteinander verglichen wurden. Es stellte sich heraus, dass eine Haushaltsversicherung grundsätzlich die beiden Versicherungsarten Hausratversicherung und Privathaftpflichtversicherung umfasst. Nachdem das Datenmodell für den Haushaltsbereich modelliert wurde, konnten die mit Hilfe des pdfminers extrahierten Policen-Dokumente mit den im Datenmodell definierten Attributen annotiert werden. Das Resultat waren Annotierte Dokumente, die anschliessend als Trainingset für die erhaltenen Skripte dienten. Am Ende wurden die Ergebnisse, die aus den Skripten resultierten präsentiert und einige Verbesserungsvorschläge gemacht.

Studiengang: Wirtschaftsinformatik (Bachelor)

Keywords Versicherungsbranche, Datenmodellierung, Machine-Learning, Prozessautomatisierung, Informationsextraktion

Vertraulichkeit: vertraulich

Art der Arbeit

Bachelor Thesis

Auftraggebende

Institut für Wirtschaftsinformatik, HSW FHNW, Olten

Autorinnen und Autoren

Mushkolaj, Rijon

Betreuende Dozierende

Pustulka, Elzbieta

Publikationsjahr

2020

Sprache der Arbeit

Deutsch

Vertraulichkeit

vertraulich

Studiengang

Wirtschaftsinformatik (Bachelor)

Standort Studiengang

Olten

Keywords

Versicherungsbranche, Datenmodellierung, Machine-Learning, Prozessautomatisierung, Informationsextraktion