STATISTICA
Contattaci
  
 
  
Prodotti / Soluzioni
 
 
 
Caratteristiche Uniche
 
 

StatSoft Email Tips

Cluster Analysis per la Stima del Rischio di Credito

Analisi dei Gruppi.
I modelli per la stima del rischio di credito vengono sviluppati attraverso l’analisi statistica degli insiemi di dati storici. L’uso dei metodi statistici di discriminazione e classificazione per la stima del rischio di credito è sempre stato abbondantemente considerato sin dal loro concepimento avvenuto negli anni ’50 e ’60.

Le istituzioni di credito spesso effettuano operazioni di screening sulle richieste di credito, e valutano inoltre la performance dei clienti esistenti su base regolare. La loro profittabilità è direttamente collegata al profilo di rischio dei clienti. Decisioni errate possono avere conseguenze dirette sull’attività di un istituto di credito: il rifiuto del credito ad un buon applicante può causare la perdita di profitti futuri, mentre l’approvazione di un credito in presenza di condizioni negative può causare la perdita degli interessi e talvolta dell’intero ammontare del prestito. Quindi, l’accertamento di un rischio accurato consente di stabilire il prezzo corretto, cioè di determinare un tasso d’interesse commensurato con il rischio associato ad un prestito. In questa sezione verrà illustrata una classica tecnica per l'individuazione dei diversi gruppi di applicanti in base ai dati storici (anagrafici, economici, ecc.) disponibili. Verranno inoltre discussi i metodi ed il ragionamento statistici su cui è basata tale tecnica. Di seguito è possibile osservare una porzione del file dati di riferimento:

Esempio - Dati per la Stima del Rischio di Credito. Il file dati da usare in questo capitolo -- CreditScoring.sta – contiene informazioni demografiche e relative al credito associate a 2500 individui. Come primo passaggio, si osservino attentamente le informazioni contenute in tale dataset, per comprendere la natura di base delle variabili da usare:

1. SESSO

1. Maschio 2. Femmina

2. STATO CIVILE

1. Sposato/a 2. Single 3. DivSepVed

3. INTERVALLO ETÀ

1. 18-25 2. 26-40 3. 41-50

4. ETÀ CLIENTE (Continua)

5. INTERVALLO ENTRATE

1. 15-30 2. 31-45 3. 46-60

6. ENTRATE MENSILI (Continua)

7. NUMERO DI FIGLI (da 0 a 4)

8. NUMERO DI CARTE DI CREDITO (da 0 a 6)

9. METODO DI PAGAMENTO

1. Mensile 2. Settimanale

10. MUTUO (Sì o No)

1. Sì 2. No

11. NUMERO DI STORECARD (da 0 a 5)

12. NUMERO DI PRESTITI CONTRATTI (da 0 a 3)

Numero di casi (istanze) nei dati = 2500
Variabili continue menzionate nelle parentesi.

Si supponga di disporre dei dati relativi a 2500 soggetti, e di voler stabilire se tali soggetti cadono "naturalmente" all'interno di un certo numero di gruppi sulla base dei dati disponibili. In termini più generali, si supponga di disporre di un insieme di misure estratte da un grande campione di osservazioni, e di voler stabilire se nel campione esistono gruppi di osservazioni, e, se sì, quanti. Questo tipo di situazione si verifica in molti ambiti, quale ad esempio la ricerca di marketing in cui si potrebbe essere interessati ad individuare i gruppi corrispondenti a diversi stili di vita o segmenti di mercato; negli ambiti produttivi e di controllo della qualità, si potrebbe invece essere interessati ad individuare diversi tipi di andamenti o di guasti presenti nel prodotto finale, ecc.

In questo esempio verrà illustrato come usare tali metodi, disponibili nel modulo Analisi dei Gruppi EM e k-Means Generalizzata di STATISTICA, possano essere utilizzati per la determinazione sulla base dei dati del miglior numero di gruppi e per l'identificazione le differenti tipologie di rischio. Ci si attende infatti di individuare un certo numero di gruppi di applicanti omogenei per caratteristiche al loro interno ed eterogenei tra loro. Ciò consentirà verosimilmente di poter classificare i diversi clienti dell'istituto di credito in base ai dati sopra illustrati, e poter stabilire se rientrano all'interno di un gruppo associabile ad un particolare livello di rischio (Grave Perdita, Cattivo Profitto, Buon Profitto, ecc.).

Si supponga in questo caso di disporre di un'ulteriore variabile:

La variabile TYPE OF RISK (Tipo di rischio) contiene in questo caso i dati relativi all'ultimo prestito concesso ad ogni cliente inserito nel database. Questi dati esprimono il risultato in termini di guadagno/perdita associato a quest'ultimo prestito. Tale variabile ci permetterà di fare un confronto con i gruppi di livello di rischio che gli algoritmi di Analisi dei Gruppi EM e k-Means Generalizzata di STATISTICA produrranno in questa sede.

Analisi. Per iniziare l'analisi si dovrà accedere al modulo Analisi dei Gruppi EM e k-Means Generalizzata di STATISTICA. Selezioneremo Gender, Marital Status, Age Range, Income Range, Number of Kids, Number of Credit Cards, How Paid?, Mortage, Number of Storecards, Number of Loans come variabili continue e Customer's Age e Monthly Income come variabili categoriali:

Specificazione della validazione incrociata v-fold. A questo punto, per determinare il numero ottimale di gruppi, sarà necessario ricorrere all'algoritmo di Validazione Incrociata V-fold implementato in Analisi dei Gruppi EM e k-Means Generalizzata di STATISTICA. Tale tecnica suddividerà il campione di 2500 clienti in v campioni selezionati casualmente ("fold") di dimensione approssimativamente uguali. Quindi STATISTICA eseguirà analisi dei gruppi ripetute in corrispondenza di v-1 campioni (un campione verrà lasciato fuori), ed infine classificherà le osservazioni presenti nel campione non usato per calcolare la rispettiva soluzione di clustering. Tale campione sarà trattato come insieme di test, in corrispondenza del quale verrà calcolata la distanza media delle osservazioni rispetto ai relativi centri di gruppo. Si otterrà quindi la misura media del "costo di errata classificazione" su tutte le v repliche dell'analisi. STATISTICA continuerà ad eseguire tali calcoli per numeri crescenti di gruppi finché nelle successive soluzioni di clustering (con k e k+1 gruppi) la diminuzione percentuale del costo di errata classificazione sarà inferiore rispetto al valore di Diminuzione percentuale più piccola, specificata sulla scheda Validazione; a quel punto il numero k ottenuto sarà considerato come miglior numero di gruppi.

 

Visualizzazione dei Risultati

Di seguito viene visualizzata la finestra dei risultati, attraverso la quale si potrà avere accesso alle diverse funzionalità di produzione tabelle/grafici:

Grafico della sequenza dei costi. Dapprima si osservi il Grafico della sequenza dei costi. Tale grafico rappresenta la funzione d'errore (distanza media delle osservazioni degli insiemi di test dai centroidi del gruppo al quale sono state assegnate le osservazioni) lungo le differenti soluzioni di gruppo:

Per prima cosa ci ricaviamo le medie di gruppo, che ci consentiranno anche di visualizzare il numero ottimale di gruppi suggerito dal software:

Le due precedenti immagini rappresentano sezioni del medesimo spreadsheet di STATISTICA. Come prima cosa è possibile verificare come il software abbia individuato 3 gruppi massimamente omogenei al loro interno e massimamente eterogenei tra loro. In corrispondenza delle variabili categoriali sono state identificate, per ogni gruppo, le voci caratterizzate dalla frequenza assoluta maggiore, mentre in corrispondenza delle variabili continue è stata calcolata la media aritmetica.

I risultati ci dicono come il Gruppo 1 sia composto prevalentemente da soggetti caratterizzati da un'età compresa tra 41 e 50 anni, aventi in media due figli, cinque carte di credito, entrate medie pari a 23619 dollari, ecc.; tale gruppo è composto inoltre da 734 soggetti (quindi rappresenta circa il 29% del file di dati originario). Il Gruppo 2  è composto in prevalenza da soggetti caratterizzati da un'età compresa tra 18 e 25 anni, aventi in media zero figli, due carte di credito, entrate medie pari a 22360 dollari, ecc.; tale gruppo è composto inoltre da 944 soggetti (quindi rappresenta circa il 38% del file di dati originario). Il Gruppo 3  è composto in prevalenza da soggetti caratterizzati da un'età compresa tra 26 e 40 anni, aventi in media un figlio, una carta di credito, entrate medie pari a 31380 dollari, ecc.; tale gruppo è composto inoltre da 822 soggetti (quindi rappresenta circa il 33% del file di dati originario).

Sono disponibili inoltre strumenti grafici di supporto ai risultati riportati in tabella:

In questa tabella sono stati riportate sull'asse verticale i valori standardizzati delle medie di gruppo in corrispondenza delle due variabili continue disponibili (Customer's Age e Monthly Income). Com'è possibile osservare, il Gruppo 1 è composto da soggetti aventi in media 42 anni e con un basso reddito, il Gruppo 2 è composto da soggetti giovanissimi e con un basso reddito (pressoché identico a quello dei soggetti appartenenti al Gruppo 1). Il Gruppo 3 invece è composto da soggetti aventi in media 32 anni e con un reddito relativamente superiore rispetto a quello osservato in corrispondenza degli altri due livelli.

Per quanto riguarda le variabili categoriali, possiamo produrre anche grafici di frequenza quali ad esempio il seguente:

Come si vede dalla tabella riportante le frequenze della variabile Gender (sesso), la maggioranza dei soggetti che compongono il Gruppo 1 è composto da soggetti Femmina, contrariamente a quanto accade negli altri due gruppi.

Sempre considerando i dati anagrafici, è possibile verificare come, anche per quanto riguarda lo stato civile dei soggetti, il Gruppo 1 si distingua in modo sensibile rispetto agli altri due gruppi. In questo caso il Gruppo 1 è composto per la maggior parte da soggetti separati o vedovi (si vedano le frequenze corrispondenti al codice SepWid), mentre negli altri due gruppi non sono presenti soggetti contraddistinti da questo tipo di stato civile. Quindi dall'osservazione di questi due ultimi grafici si può affermare come vi sia un gruppo (Gruppo 1) che si contraddistingue oltremodo per caratteristiche anagrafiche: esso infatti è composto in maggioranza da soggetti separati o vedovi e di sesso femminile.

Confronto tra Soluzione Finale e Risultato Economico dell'Ultimo Prestito. In questo esempio è stata deliberatamente ignorata la variabile TYPE OF RISK. Come già detto, tale variabile contiene i dati relativi all'ultimo prestito concesso ad ogni cliente inserito nel database. Questi dati esprimono il risultato in termini di guadagno/perdita associato a quest'ultimo prestito.

La variabile TYPE OF RISK può essere utilizzata per stabilire se vi è una certa concordanza tra i gruppi identificati ed il risultato economico relativo all'ultimo prestito concesso ad ogni cliente del database. Ciò può consentirci di verificare se i gruppi individuati dal software possano avere un "senso" in termini di maggiore o minore affidabilità del particolare gruppo di clienti osservato. In questo caso sarà possibile produrre una tabella in cui sia riportata non solo la variabile TYPE OF RISK ma anche una colonna contenente i codici identificati di Gruppo per ogni soggetto inserito nel database:

A partire da questo spreadsheet è possibile produrre una tabella incrociata di questo tipo:

Osserviamo come in corrispondenza dell'ultimo prestito, circa il 58% dei soggetti appartenenti al Gruppo 1 ha causato all'istituto di credito una grave perdita (Bad Loss); nella stessa tabella è possibile osservare come circa il 52% dei soggetti appartenenti al Gruppo 2 ha portato al medesimo istituto un cattivo profitto (Bad Profit). Il gruppo più "economicamente vantaggioso" risulta invece essere il Gruppo 3, in corrispondenza del quale, in occasione dell'ultimo prestito il 61% circa dei soggetti ha portato all'istituto di credito un buon profitto (Good Profit).

Tutto ciò può essere visualizzato tramite un semplice istogramma categorizzato:

Analisi realizzata dal servizio di consulenza di StatSoft Italia:

Sevizio di Consulenza di StatSoft Italia

Le idee, i concetti e le informazioni contenute in questo documento costituiscono comunicazione riservata e non possono essere usate o duplicate senza autorizzazione. La riproduzione di una parte o dell’intero documento senza approvazione di StatSoft Italia è espressamente proibita.


 
©Copyright StatSoft Italia srl, 1984-2007. StatSoft, StatSoft logo, STATISTICA, SEWSS, SEDAS, Data Miner, SEPATH and GTrees are trademarks of StatSoft, Inc.