Over the past decades, bankruptcy prediction has become one of the main and priority assessment topics in credit risk analysis for most financial institutions and intermediaries. The study begins by reviewing the literature on the bankruptcy framework and examines the varying definitions and causes of bankruptcy. The research emphasizes the importance of both financial and non-financial data in predicting bankruptcy. Financial statements, such as balance sheets and cash flow reports, reveal crucial information about a firm’s operational health. In contrast, non-financial data, including aspects of corporate governance and ESG factors, provide a wider view of long-term sustainability. These data sources are essential for developing predictive models that help reduce risks associated with economic crises like the Dot-com bubble and the COVID-19 pandemic. The study continues with predictive methodologies, tracing the evolution from traditional statistical models to modern machine learning (ML) approaches. Classical models such as Altman’s Z-scores, logistic regression, and the Ohlson O-score demonstrate foundational techniques for assessing financial health until the development of machine learning models, which will be the core of this work. Machine learning’s adaptability and ability to process large datasets, make them the best model for bankruptcy prediction purposes. Decision trees, random forests, boosting methods, and support vector machines (SVM) are some of the machine learning models that have a high predictive accuracy rate. Therefore, the focus of this thesis will be to analyze and describe the main features of some of these models with their own case study in which data are collected for 282 companies in the period between 2016 and 2023. The final purpose of this paper will therefore be to understand what the most relevant variables are to predict bankruptcy and demonstrate that the new machine learning models have a better performance than classical models.

Negli ultimi decenni, la previsione del fallimento è diventato uno dei temi di valutazione principali e prioritari nell'analisi del rischio di credito per la maggior parte delle istituzioni e degli intermediari finanziari. Lo studio inizia con una rassegna della letteratura sul quadro fallimentare ed esamina le diverse definizioni e cause del fallimento. La ricerca inoltre sottolinea l'importanza dei dati finanziari e non finanziari nella previsione del fallimento. I dati finanziari, come i bilanci e le relazioni sui flussi di cassa, rivelano informazioni cruciali sulla salute operativa di un'azienda. I dati non finanziari, invece, compresi gli aspetti di corporate governance e i fattori ESG, forniscono una visione più ampia della sostenibilità a lungo termine. Queste fonti di dati sono essenziali per sviluppare modelli predittivi che aiutino a ridurre i rischi associati a crisi economiche come la bolla delle Dot-com o la pandemia COVID-19. Lo studio prosegue con le metodologie predittive, tracciando l'evoluzione dai modelli statistici tradizionali ai moderni approcci di apprendimento automatico. I modelli classici, come il punteggio Z di Altman, la regressione logistica e l'O-score di Ohlson, rappresentano tecniche fondamentali per la valutazione della salute finanziaria, fino allo sviluppo dei modelli di machine learning, che saranno il fulcro di questo lavoro. L'adattabilità dell'apprendimento automatico e la capacità di elaborare grandi insiemi di dati ne fanno il modello migliore per la previsione dei fallimenti. Alberi decisionali, foreste casuali, metodi di boosting e support vector machine (SVM) sono alcuni dei modelli di apprendimento automatico che hanno un alto tasso di accuratezza predittiva. Pertanto, l'obiettivo di questa tesi sarà quello di analizzare e descrivere le caratteristiche principali di alcuni di questi modelli con un proprio caso di studio in cui vengono raccolti i dati di 282 aziende nel periodo tra il 2016 e il 2023. Lo scopo finale di questo lavoro sarà quindi quello di capire quali sono le variabili più rilevanti per prevedere il fallimento e dimostrare che i nuovi modelli di machine learning hanno una performance migliore ai fini del fallimento rispetto ai modelli classici.

Bankruptcy prediction using machine learning models

YLLESCAS PAGAN, RODRIGO EDUARDO
2023/2024

Abstract

Over the past decades, bankruptcy prediction has become one of the main and priority assessment topics in credit risk analysis for most financial institutions and intermediaries. The study begins by reviewing the literature on the bankruptcy framework and examines the varying definitions and causes of bankruptcy. The research emphasizes the importance of both financial and non-financial data in predicting bankruptcy. Financial statements, such as balance sheets and cash flow reports, reveal crucial information about a firm’s operational health. In contrast, non-financial data, including aspects of corporate governance and ESG factors, provide a wider view of long-term sustainability. These data sources are essential for developing predictive models that help reduce risks associated with economic crises like the Dot-com bubble and the COVID-19 pandemic. The study continues with predictive methodologies, tracing the evolution from traditional statistical models to modern machine learning (ML) approaches. Classical models such as Altman’s Z-scores, logistic regression, and the Ohlson O-score demonstrate foundational techniques for assessing financial health until the development of machine learning models, which will be the core of this work. Machine learning’s adaptability and ability to process large datasets, make them the best model for bankruptcy prediction purposes. Decision trees, random forests, boosting methods, and support vector machines (SVM) are some of the machine learning models that have a high predictive accuracy rate. Therefore, the focus of this thesis will be to analyze and describe the main features of some of these models with their own case study in which data are collected for 282 companies in the period between 2016 and 2023. The final purpose of this paper will therefore be to understand what the most relevant variables are to predict bankruptcy and demonstrate that the new machine learning models have a better performance than classical models.
2023
Negli ultimi decenni, la previsione del fallimento è diventato uno dei temi di valutazione principali e prioritari nell'analisi del rischio di credito per la maggior parte delle istituzioni e degli intermediari finanziari. Lo studio inizia con una rassegna della letteratura sul quadro fallimentare ed esamina le diverse definizioni e cause del fallimento. La ricerca inoltre sottolinea l'importanza dei dati finanziari e non finanziari nella previsione del fallimento. I dati finanziari, come i bilanci e le relazioni sui flussi di cassa, rivelano informazioni cruciali sulla salute operativa di un'azienda. I dati non finanziari, invece, compresi gli aspetti di corporate governance e i fattori ESG, forniscono una visione più ampia della sostenibilità a lungo termine. Queste fonti di dati sono essenziali per sviluppare modelli predittivi che aiutino a ridurre i rischi associati a crisi economiche come la bolla delle Dot-com o la pandemia COVID-19. Lo studio prosegue con le metodologie predittive, tracciando l'evoluzione dai modelli statistici tradizionali ai moderni approcci di apprendimento automatico. I modelli classici, come il punteggio Z di Altman, la regressione logistica e l'O-score di Ohlson, rappresentano tecniche fondamentali per la valutazione della salute finanziaria, fino allo sviluppo dei modelli di machine learning, che saranno il fulcro di questo lavoro. L'adattabilità dell'apprendimento automatico e la capacità di elaborare grandi insiemi di dati ne fanno il modello migliore per la previsione dei fallimenti. Alberi decisionali, foreste casuali, metodi di boosting e support vector machine (SVM) sono alcuni dei modelli di apprendimento automatico che hanno un alto tasso di accuratezza predittiva. Pertanto, l'obiettivo di questa tesi sarà quello di analizzare e descrivere le caratteristiche principali di alcuni di questi modelli con un proprio caso di studio in cui vengono raccolti i dati di 282 aziende nel periodo tra il 2016 e il 2023. Lo scopo finale di questo lavoro sarà quindi quello di capire quali sono le variabili più rilevanti per prevedere il fallimento e dimostrare che i nuovi modelli di machine learning hanno una performance migliore ai fini del fallimento rispetto ai modelli classici.
File in questo prodotto:
File Dimensione Formato  
Rodrigo_Yllescas_880800.pdf

accesso aperto

Dimensione 2.29 MB
Formato Adobe PDF
2.29 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14247/24701