Datenextraktion für die Versicherungsbranche
Die FHNW hat in einem Forschungsprojekt die Anwendbarkeit von Machine Learning im Bereich der Datenextraktion aus Versicherungspolicen erforscht. Darauf basierend analysiert das Praxisprojekt Feature-Kombinationen und erarbeitet eine Methodik zur automatisierten Annotation von Trainingsdaten.
Neutzner, Joel & Spoerlé, Fabian & Haas, Dominik & Keller, Thomas, 2020
Art der Arbeit Projektarbeit/Praxisprojekt
Auftraggebende Institut für Wirtschaftsinformatik, HSW FHNW
Betreuende Dozierende Hanne, Thomas
Keywords Machine Learning, Python, Sci-Kit Learn, Versicherung, Police, Annotation, RegEx
Views: 44 - Downloads: 14
Versicherungspolicen enthalten umfangreiche und wichtige Informationen. Es gibt allerdings keine Vorschriften bezüglich Gestaltung, Form oder Inhalt des Dokuments. Aufgrund der Vielfalt an Kombinationen aus Versicherungsgesellschaft, Versicherungsart und Sprache geraten bestehende Lösungen zum Vergleich solcher Dokumente zunehmend an ihre Grenzen. Die Anwendung von Machine Learning sieht vielversprechend aus. Die Bereiche der Feature-Analyse und der effizienten Erstellung eines konsistenten Trainingssets müssen jedoch noch genauer betrachtet werden.
Als Entscheidungsgrundlage zur Wahl von optimalen Feature-Kombinationen wurden bestehende wie auch neue Features neu zusammengewürfelt und getestet. Eine Qualitätsmessung erfolgte mittels vorhandener Metriken zur Analyse der Machine Learning Algorithmen.
Aufschluss über die bestehende Annotationsqualität der Trainingsdaten lieferte eine quantitative Datenanalyse. Eine darauffolgende Optimierung diente als Basis zur Qualitätsmessung der automatisierten Annotation. Diese erfolgt basierend auf regulären Ausdrücken (Regex) mittels Python-Skript.
Dank dem modular aufgebauten Skript konnte eine Reduktion der manuellen Annotation von Trainingsdaten von über 70% erreicht werden. Durchschnittlich 30 Regeln für die Versicherungstypen KTG, UVG und UVG-Z sorgen für eine Erkennungsrate von Werte-Feldern von 83% und eine korrekte Zuordnung zum jeweiligen Typ in 81% der Fälle. Damit wurde die Basis für die Erstellung eines grösseren und konsistenteren Trainingssets in kürzerer Zeit gelegt.
Im Bereich der Feature-Analyse für die potentielle Optimierung des Machine Learning Algorithmus wurden aufschlussreiche Ergebnisse gesammelt. Unter Betrachtung der vorgegebenen Modelle resultiert die Erkenntnis, dass keine nennenswerte Verbesserung durch neue Features erzielt werden kann. Im Gegenzug stellt sich jetzt jedoch auch die Frage, ob eine Anpassung von Feature-Kombinationen unter Einbezug einer Gewichtung positiven Einfluss auf die verschiedenen, eingesetzten Machine Learning Algorithmen haben könnten.
Zusätzliche Erkenntnisse im Bereich der Datenqualität und Anonymisierung von Trainingsdaten ergänzen die eigentlichen Projektziele.
Studiengang: Wirtschaftsinformatik (Bachelor)
Vertraulichkeit: öffentlich