Mieterschäden automatisch klassifizieren - Eine Machine Learning-Analyse für eine Versicherungsgesellschaft

Die vorliegende Bachelorarbeit beschäftigt sich mit der automatischen Klassifizierung von Mieterschäden für eine Versicherungsgesellschaft in der Schweiz.

Simon Bräm, 2024

Art der Arbeit Bachelor Thesis
Auftraggebende Versicherungsgesellschaft in der Schweiz
Betreuende Dozierende Sterchi, Martin
Keywords Machine Learning, Data Science, Versicherung
Views: 4
Ziel war es, ein Machine Learning Modell zu entwickeln, das mit hoher Genauigkeit voraussagen kann, ob für einen beschriebenen Schadenhergang eine Versicherungsdeckung besteht oder nicht. Die Arbeit fokussierte sich auf die Analyse von Textdaten mittels verschiedenen ML-Methoden und die Erklärbarkeit der Modellergebnisse.
Die Untersuchung umfasste die Vorverarbeitung und Bereinigung der Textdaten, das Feature Engineering sowie die Auswahl und Evaluierung verschiedener ML-Modelle. Es wurden Modelle wie logistische Regression, Naive Bayes, Random Forest und künstliche neuronale Netzwerke (ANN) betrachtet und deren Leistungsfähigkeit anhand von Metriken wie ROC-AUC, Recall, Precision und Specificity bewertet.
Die Evaluierung der Modelle hat gezeigt, dass die Art und Weise, wie Textdaten strukturiert werden, einen grossen Einfluss auf die Performance eines Modells hat. Spannend war zu sehen, dass das simple Bag-of-Words-Format zu besseren Modellen führte als TF-IDF oder komplexe Embedding Daten vom vortrainierten large-language-Modell BERT. Dies könnte darauf hinweisen, dass die textuelle Struktur für die Klassifikation wichtiger ist als die kontextuelle oder semantische Tiefe, die durch TF-IDF oder BERT bereitgestellt wird, jedenfalls im Kontext von Mieterschäden. Die Resultate zeigen, dass es möglich ist, ohne aufwändiges Labelling ein Modell zu schaffen, das Mieterschäden um einiges besser klassifiziert als der reine Zufall. Dies trotz schwieriger Datenlage, unzuverlässigen Labels und ohne grossen Einsatz von Deep Learning Techniken. Bei einem Schwellenwert von 0.5 erreichte das beste Modell einen Recall von 0.472, eine Precision von 0.606 und eine Specificity von 0.925. Mit einem logistischen Regressionsmodell war es zudem möglich, die Funktionsweise mittels eines Plots und einer Shiny-App zu veranschaulichen.
Studiengang: Betriebsökonomie (Bachelor)
Vertraulichkeit: vertraulich
Art der Arbeit
Bachelor Thesis
Auftraggebende
Versicherungsgesellschaft in der Schweiz
Autorinnen und Autoren
Simon Bräm
Betreuende Dozierende
Sterchi, Martin
Publikationsjahr
2024
Sprache der Arbeit
Deutsch
Vertraulichkeit
vertraulich
Studiengang
Betriebsökonomie (Bachelor)
Standort Studiengang
Olten
Keywords
Machine Learning, Data Science, Versicherung