Datenextraktion für die Versicherungsbranche

Die FHNW hat in einem Forschungsprojekt die Anwendbarkeit von Machine Learning im Bereich der Datenextraktion aus Versicherungspolicen erforscht. Darauf basierend analysiert das Praxisprojekt Feature-Kombinationen und erarbeitet eine Methodik zur automatisierten Annotation von Trainingsdaten.

Neutzner, Joel & Spoerlé, Fabian & Haas, Dominik & Keller, Thomas, 2020

Art der Arbeit Projektarbeit/Praxisprojekt
Auftraggebende Institut für Wirtschaftsinformatik, HSW FHNW
Betreuende Dozierende Hanne, Thomas
Keywords Machine Learning, Python, Sci-Kit Learn, Versicherung, Police, Annotation, RegEx
Views: 26 - Downloads: 8
Versicherungspolicen enthalten umfangreiche und wichtige Informationen. Es gibt allerdings keine Vorschriften bezüglich Gestaltung, Form oder Inhalt des Dokuments. Aufgrund der Vielfalt an Kombinationen aus Versicherungsgesellschaft, Versicherungsart und Sprache geraten bestehende Lösungen zum Vergleich solcher Dokumente zunehmend an ihre Grenzen. Die Anwendung von Machine Learning sieht vielversprechend aus. Die Bereiche der Feature-Analyse und der effizienten Erstellung eines konsistenten Trainingssets müssen jedoch noch genauer betrachtet werden.
Als Entscheidungsgrundlage zur Wahl von optimalen Feature-Kombinationen wurden bestehende wie auch neue Features neu zusammengewürfelt und getestet. Eine Qualitätsmessung erfolgte mittels vorhandener Metriken zur Analyse der Machine Learning Algorithmen. Aufschluss über die bestehende Annotationsqualität der Trainingsdaten lieferte eine quantitative Datenanalyse. Eine darauffolgende Optimierung diente als Basis zur Qualitätsmessung der automatisierten Annotation. Diese erfolgt basierend auf regulären Ausdrücken (Regex) mittels Python-Skript.
Dank dem modular aufgebauten Skript konnte eine Reduktion der manuellen Annotation von Trainingsdaten von über 70% erreicht werden. Durchschnittlich 30 Regeln für die Versicherungstypen KTG, UVG und UVG-Z sorgen für eine Erkennungsrate von Werte-Feldern von 83% und eine korrekte Zuordnung zum jeweiligen Typ in 81% der Fälle. Damit wurde die Basis für die Erstellung eines grösseren und konsistenteren Trainingssets in kürzerer Zeit gelegt. Im Bereich der Feature-Analyse für die potentielle Optimierung des Machine Learning Algorithmus wurden aufschlussreiche Ergebnisse gesammelt. Unter Betrachtung der vorgegebenen Modelle resultiert die Erkenntnis, dass keine nennenswerte Verbesserung durch neue Features erzielt werden kann. Im Gegenzug stellt sich jetzt jedoch auch die Frage, ob eine Anpassung von Feature-Kombinationen unter Einbezug einer Gewichtung positiven Einfluss auf die verschiedenen, eingesetzten Machine Learning Algorithmen haben könnten. Zusätzliche Erkenntnisse im Bereich der Datenqualität und Anonymisierung von Trainingsdaten ergänzen die eigentlichen Projektziele.
Studiengang: Wirtschaftsinformatik (Bachelor)
Vertraulichkeit: öffentlich
Art der Arbeit
Projektarbeit/Praxisprojekt
Auftraggebende
Institut für Wirtschaftsinformatik, HSW FHNW, Olten
Autorinnen und Autoren
Neutzner, Joel & Spoerlé, Fabian & Haas, Dominik & Keller, Thomas
Betreuende Dozierende
Hanne, Thomas
Publikationsjahr
2020
Sprache der Arbeit
Deutsch
Vertraulichkeit
öffentlich
Studiengang
Wirtschaftsinformatik (Bachelor)
Standort Studiengang
Olten
Keywords
Machine Learning, Python, Sci-Kit Learn, Versicherung, Police, Annotation, RegEx