Mieterschäden automatisch klassifizieren - Eine Machine Learning-Analyse für eine Versicherungsgesellschaft
Die vorliegende Bachelorarbeit beschäftigt sich mit der automatischen Klassifizierung von Mieterschäden für eine Versicherungsgesellschaft in der Schweiz.
Simon Bräm, 2024
Art der Arbeit Bachelor Thesis
Auftraggebende Versicherungsgesellschaft in der Schweiz
Betreuende Dozierende Sterchi, Martin
Keywords Machine Learning, Data Science, Versicherung
Views: 4
Ziel war es, ein Machine Learning Modell zu entwickeln, das mit hoher Genauigkeit voraussagen kann, ob für einen beschriebenen Schadenhergang eine Versicherungsdeckung besteht oder nicht. Die Arbeit fokussierte sich auf die Analyse von Textdaten mittels verschiedenen ML-Methoden und die Erklärbarkeit der Modellergebnisse.
Die Untersuchung umfasste die Vorverarbeitung und Bereinigung der Textdaten, das Feature Engineering sowie die Auswahl und Evaluierung verschiedener ML-Modelle. Es wurden Modelle wie logistische Regression, Naive Bayes, Random Forest und künstliche neuronale Netzwerke (ANN) betrachtet und deren Leistungsfähigkeit anhand von Metriken wie ROC-AUC, Recall, Precision und Specificity bewertet.
Die Evaluierung der Modelle hat gezeigt, dass die Art und Weise, wie Textdaten strukturiert werden, einen grossen Einfluss auf die Performance eines Modells hat. Spannend war zu sehen, dass das simple Bag-of-Words-Format zu besseren Modellen führte als TF-IDF oder komplexe Embedding Daten vom vortrainierten large-language-Modell BERT. Dies könnte darauf hinweisen, dass die textuelle Struktur für die Klassifikation wichtiger ist als die kontextuelle oder semantische Tiefe, die durch TF-IDF oder BERT bereitgestellt wird, jedenfalls im Kontext von Mieterschäden.
Die Resultate zeigen, dass es möglich ist, ohne aufwändiges Labelling ein Modell zu schaffen, das Mieterschäden um einiges besser klassifiziert als der reine Zufall. Dies trotz schwieriger Datenlage, unzuverlässigen Labels und ohne grossen Einsatz von Deep Learning Techniken. Bei einem Schwellenwert von 0.5 erreichte das beste Modell einen Recall von 0.472, eine Precision von 0.606 und eine Specificity von 0.925. Mit einem logistischen Regressionsmodell war es zudem möglich, die Funktionsweise mittels eines Plots und einer Shiny-App zu veranschaulichen.
Studiengang: Betriebsökonomie (Bachelor)
Vertraulichkeit: vertraulich