"Alberi di Classificazione" di STATISTICA 7.1 L’analisi tramite alberi di classificazione rappresenta una delle principali tecniche di Data Mining. STATISTICA fornisce agli utenti una suite composta da molti differenti metodi da applicare nell’ambito dei problemi di classificazione, e genera automaticamente l’informazione di deployment necessaria per la classificazione di nuove osservazioni attraverso l’impiego di uno di tali metodi, o combinazione di metodi. Stima del Rischio di Credito (Credit Scoring). Il Credit Scoring è una tecnica decisionale che consente ai creditori di determinare se estendere il credito al richiedente un prestito. Il credit scoring consiste nell’accertamento del rischio di credito di una persona, sulla base dei dati reali a disposizione del creditore. Il processo di credit scoring inizia dalla raccolta e dall’analisi delle informazioni relative ad un campione rilevante di persone (debitori “passati/correnti”, oppure un insieme simile di persone) in modo da studiare i fattori che determinano il rischio di credito. Una volta studiati tali fattori e stabilita la loro importanza relativa, viene sviluppato un modello predittivo per calcolare un punteggio del rischio di credito associato al nuovo applicante. Semplicemente fornendo le informazioni relative al particolare applicante per ogni variabile del modello, sarà possibile individuare il suo livello di rischio di credito. Il punteggio corrisponde al rischio associato al prestito, ovvero sia al livello di verosimiglianza relativo al fatto che al prestito sia associato uno specificato risultato negativo quale la mancata restituzione o la frode. Lo sviluppo di un tale modello di credit scoring rappresenta spesso un’operazione complicata e assai dispendiosa in termini di tempo in quanto i creditori, come regola, devono considerare un grande insieme e molte variabili differenti. Stima del Rischio di Credito e Alberi di Classificazione. I modelli per la stima del rischio di credito vengono sviluppati attraverso l’analisi statistica degli insiemi di dati storici. L’uso dei metodi statistici di discriminazione e classificazione per la stima del rischio di credito è sempre stato abbondantemente considerato sin dal loro concepimento avvenuto negli anni ’50 e ’60. La valutazione del rischio e la classificazione del credito sono più oggettive e consistenti allorquando si utilizzano modelli di stima, in quanto tali modelli sono basati su dati reali in grado di supportare consistentemente il processo decisionale. Le istituzioni di credito spesso effettuano operazioni di screening sulle richieste di credito, e valutano inoltre la performance dei clienti esistenti su base regolare. La loro profittabilità è direttamente collegata al profilo di rischio dei clienti. Decisioni errate possono avere conseguenze dirette sull’attività di un istituto di credito: il rifiuto del credito ad un buon applicante può causare la perdita di profitti futuri, mentre l’approvazione di un credito in presenza di condizioni negative può causare la perdita degli interessi e talvolta dell’intero ammontare del prestito. Quindi, l’accertamento di un rischio accurato consente di stabilire il prezzo corretto, cioè di determinare un tasso d’interesse commensurato con il rischio associato ad un prestito. In questo capitolo verranno illustrati alcuni metodi con alberi di classificazione attraverso l’utilizzo di insiemi di dati reali in modo da prevedere il rischio di credito di un applicante. Verranno inoltre discussi i metodi ed il ragionamento statistici su cui sono basati tali tecniche. Di seguito è possibile osservare una porzione del file dati di riferimento:
Esempio - Dati per la Stima del Rischio di Credito. Il file dati da usare in questo capitolo -- CreditScoring.sta – contiene informazioni demografiche e relative al credito associate a 2500 individui. Come primo passaggio, si osservino attentamente le informazioni contenute in tale dataset, per comprendere la natura di base delle variabili da usare: 1. SESSO 1. Maschio 2. Femmina 2. STATO CIVILE 1. Sposato/a 2. Single 3. DivSepVed 3. INTERVALLO ETÀ 1. 18-25 2. 26-40 3. 41-50 4. ETÀ CLIENTE (Continua) 5. INTERVALLO ENTRATE 1. 15-30 2. 31-45 3. 46-60 6. ENTRATE MENSILI (Continua) 7. NUMERO DI FIGLI (da 0 a 4) 8. NUMERO DI CARTE DI CREDITO (da 0 a 6) 9. METODO DI PAGAMENTO 1. Mensile 2. Settimanale 10. MUTUO (Sì o No) 1. Sì 2. No 11. NUMERO DI STORECARD (da 0 a 5) 12. NUMERO DI PRESTITI CONTRATTI (da 0 a 3) 13. TIPO DI RISCHIO 1. Grave perdita 2. Cattivo Profitto 3. Buon Profitto Numero di
casi (istanze) nei dati = 2500 Adesso si provi ad individuare le differenti categorie della variabile dipendente Type of Risk (Tipo di Rischio). La categoria Bad Loss (Grave Perdita) consiste di soggetti da considerarsi come cattivi debitori ed aventi in passato causato perdite alla compagnia. Si tratta di clienti incapaci sia di effettuare pagamenti minimi che di rifondare l’ammontare principale. In breve, possono essere considerati soggetti fallimentari. I soggetti aventi meno debiti e che sono in grado di effettuare pagamenti solleciti appartengono al gruppo di Good Profit (Buon Profitto). Questi ultimi possono essere considerati soggetti non rischiosi. I soggetti di tipo Bad Profit (Cattivo Profitto) cadono tra questi due gruppi, e sono coloro i quali hanno alti debiti a fronte di una capacità di assolvere i pagamenti. I creditori potrebbero trarre profitto da questi ultimi dato l’ammontare dei tassi d’interesse che potrebbero ivi applicare (caratteristica dell’alto rischio associato a tali tipi di prestito). L’obiettivo del seguente esempio è illustrare come i modelli ad alberi di classificazione possono essere trattati in sede di addestramento e di deployment in vista della previsione del rischio di credito dei richiedenti il prestito. Tale analisi verrà effettuata tramite l'utilizzo di STATISTICA Data Miner . Una volta aperto un nuovo progetto di Data Mining sarà possibile specificare le analisi da analizzare: in questo caso Type of Risk verrà specificata come variabile dipendente categoriale, Customer's Age e Monthly Income come indipendenti continue e le variabili categoriali (Sex, Marital Status, Number of Kids, Number of Credit cards, How Paid?, Mortgage, Number of Store cards and Number of Loans) come indipendenti categoriali. Suddivisione dei Dati in Campioni di Addestramento e di Test (Classificazione). È solitamente necessario, durante la costruzione del modello, mantenere in parte un campione di test (verifica) composto da osservazioni o casi non direttamente impiegati nella costruzione dei modelli. Una volta terminato l’addestramento, l’insieme di test può essere usato per prevedere la variabile di output (Type of Risk in questo caso) in corrispondenza di tali casi, e confrontare queste previsioni con il risultato reale osservato; quindi, sarà possibile usare le osservazioni dell’insieme di verifica per effettuare la validazione incrociata del modello (cioè, per impiegare la sua capacità predittiva in corrispondenza delle osservazioni che non sono state impiegate per costruire il modello). Dopo aver specificato le variabili da analizzare sarà possibile accedere - attraverso il Visualizzatore di Nodi di STATISTICA Data Miner - alla più completa selezione di strumenti analitici per il data mining:
Con un doppio clic su Suddivisione dei Dati di Input in Campioni di Addestramento (Classificazione) il particolare nodo verrà allegato allo spazio di lavoro dell’SDM. Dopo aver specificato -- tramite la modifica delle impostazioni di nodo -- di suddividere la sorgente di dati in 50% di casi da inserire nel campione di addestramento e nel rimanente 50% di casi da inserire nel campione di test, otterremo la seguente visualizzazione:
Specificazione dei Nodi per C&RT e CHAID. La seguente sezione illustrerà l’uso dei classificatori ad alberi (metodi di classificazione) attraverso l’utilizzo di due differenti metodi o algoritmi di base: C&RT (Classificazione and Regressione Trees) e CHAID (questo acronimo sta per Chi-squared Automatic Interaction Detector; vi sono due “varianti” di questa tecnica). In tale e-mail tip ci si soffermerà esclusivamente sull'utilizzo del metodo di classificazione C&RT. Dopo la creazione degli insiemi di test e di addestramento, sarà possibile inserire i tre nodi di analisi (corrispondenti ai tre diversi metodi di classificazione) e connetterli ai nodi presenti nel pannello di pulitura di SDM:
Visualizzazione dei Risultati. Dopo aver definito le specifiche impostazioni di nodo sarà possibile eseguire il progetto di Data Miner. La seguente immagine riporta lo spazio di lavoro del Data Miner così come dovrebbe apparire adesso.
Nei termini più generali, l’obiettivo delle analisi tramite algoritmi ad alberi di classificazione è determinare un insieme di condizioni (suddivisioni) logiche se-allora che permettano una previsione o una classificazione accurate dei casi. Sia le tecniche di CHAID che di C&RT consentiranno di costruire alberi, in cui ogni nodo (non-terminale) identifica una condizione di suddivisione, per la produzione di una previsione di ottimo (della variabile dipendente o delle variabili di risposta). Quindi, entrambi i tipi di algoritmi possono venire applicati per analizzare problemi sia di regressione che di classificazione. Una differenza principale tra questi due metodi è il numero di suddivisioni condizionate che l’algoritmo ad alberi è progettato a gestire. I programmi C&RT (Breiman et. al., 1984) sono progettati per il calcolo di alberi di classificazione binari basati su suddivisioni univariate delle variabili predittrici categoriali, delle variabili predittrici ordinali, o di una combinazione di entrambi i tipi di predittori. Per saperne di più circa tali metodi, si raccomanda di consultare l’Electronic Textbook di StatSoft alla pagina http://www.statsoft.com/textbook/stathome.html. Alberi di Classificazione Standard con Deployment (C&RT). Questo nodo calcola Alberi di Classificazione standard (C&RT) per predittori continui e categoriali, e costruisce una struttura ottimale ad alberi per la previsione di variabili dipendenti categoriali attraverso un processo di validazione incrociata v-fold (opzionale). Opzionalmente possono venire richieste diverse statistiche osservazionali (classificazioni previste).
Osservando il grafico precedente, è possibile osservare come l’algoritmo C&RT abbia creato un albero con 6 nodi terminali (evidenziati in rosso), risultanti da 5 condizioni se-allora per la previsione di Type of Risk. I nodi terminali o foglie terminali così come talvolta sono chiamati, sono i nodi in corrispondenza dei quali non possono venire applicate ulteriori suddivisioni per un miglioramento dell’accuratezza predittiva della soluzione (dati i parametri correnti selezionati per guidare il processo di costruzione degli alberi). L’albero inizia con il nodo decisionale principale (anche chiamato nodo radice) con tutti i 1250 casi od osservazioni presenti nell’insieme di dati di addestramento; la categoria “dominante” nel nodo radice è la categoria Bad Profit, avente la frequenza più alta tra le tre possibili soluzioni, come indicato dal relativo istogramma. La legenda identificante le barre degli istogrammi di nodo e corrispondenti alle categorie dell’albero è presente nell’angolo in alto a sinistra del grafico. Si ricordi che l’obiettivo di tale analisi è comprendere come sia possibile effettuare una discriminazione tra i tre tipi di rischio, sulla base degli input usati come predittori. L’interpretazione di tale albero è piuttosto semplice: Il nodo radice viene suddiviso in due nuovi nodi, aventi ancora Bad Profit come categoria predominante, ma in minor misura nel sotto-nodo di destra. È quindi possibile affermare che la prima suddivisione non consentirebbe di discriminare molto tra i differenti gruppi di rischio. Il testo riportato sotto il nodo radice descrive il tipo di suddivisione: Esso indica come se Customer’s Age sia inferiore o uguale a 25,5, il cliente verrà classificato all’interno del sottonodo o ramo di sinistra (dove Bad Profit è molto più frequente rispetto a quanto osservato nel sottonodo di destra); se Customer’s Age è maggiore di 25,5, le rispettive osservazioni saranno assegnate al nodo di destra,; anche se Bad Profit rimane sempre la classificazione dominante in tale nodo, è (relativamente) evidente come non risulti più così dominante come negli altri nodi. Successivamente, il nodo di sinistra (figlio del nodo radice, e rappresentante gli applicanti con età minore o uguale a 25,5 anni) verrà suddiviso ancora, sulla base della variabile Number of Loans. Il nodo terminale risultante (a sinistra) mostra come, tra i 4 soggetti non aventi alcun debito, a 3 corrisponde la categoria Good Profit. A questo punto si potrebbe voler visualizzare lo spreadsheet dei risultati Struttura albero 1 per disporre delle regole complete che definiscono tale suddivisione:
Tale spreadsheet (Struttura albero 1...) descrive in dettaglio la struttura ad albero complessiva. Per esempio, la seconda riga di questo spreadsheet contiene le informazioni relative al Nodo #2: La variabile di suddivisione utilizzata in corrispondenza di questo nodo è Number of Loans a cui è associata la categoria Zero; quindi alla voce “altri” sono comprese le categorie One, Two, Three (assegnate al sottonodo di destra). A questo punto è possibile concludere che a 3 casi (richiedenti il prestito senza averne contratto alcuno in precedenza) su 4 aventi fino a 25,5 anni è associata la categoria Good Profit. I restanti applicanti, con età inferiore o uguale ai 25,5 anni e aventi contratto almeno un debito, sono principalmente classificati come individui di tipo Bad Profit. Da ciò è possibile concludere che i clienti fino ai 25,5 anni sono generalmente cattivi debitori (Nota: per questa fascia d’età solo 3 casi su 507 cade all’interno della categoria Good Profit), alcuni dei quali causano gravi perdite al creditore; quindi un istituto finanziario potrebbe procedere con cautela prima di estendere il credito agli individui che presentano questa caratteristica. Nello stesso modo è possibile analizzare gli altri rami e trarre ulteriori conclusioni. Spostandosi verso la parte bassa dell’albero (in direzione dei nodi terminali), gli istogrammi riportati all’interno dei nodi terminali evidenziano come alcuni di tali nodi siano più “puri” di altri. Per “puro” s’intende che i soggetti classificati nel rispettivo nodo terminale sono relativamente omogenei rispetto alla variabile d’interesse (ad esempio, quasi tutti gli individui in corrispondenza di alcuni nodi appartengono alla classe Bad Profit). Tuttavia, altri nodi terminali risultano essere meno “puri” di altri, come conseguenza del mancato raggiungimento di una separazione perfetta tra gli applicati di tipo Bad Loss, Bad Profit, e Good Profit, date tali variabili di input. Ciò può essere ulteriormente illustrato anche attraverso il grafico di Matrice di classificazione (o matrice di confusione relativa alle classificazioni previste e osservate). Matrice di Classificazione. La Matrice di classificazione confronta le classificazioni reali con le classificazioni previste (quelle dominanti all’interno del rispettivo nodo di analisi), in modo da esprimere il livello di accuratezza della classificazione (o tasso di errata classificazione) per le differenti categorie di risultati:
Il grafico indica come il 78,29% dei casi classificati come Bad Profit siano stati “previsti accuratamente”. (Questa percentuale è riportata nello spreadsheet Matrice di classificazione contenuto nel registro). Dal grafico riportato sopra, è generalmente possibile dedurre come il metodo C&RT fornisce un buon approccio per la previsione della categoria Bad Profit, rispetto alle altre categorie. (Tuttavia, tali conclusioni dovrebbero essere considerate con cautela per molte ragioni). Analisi realizzata dal servizio di consulenza di StatSoft Italia:
Le idee, i concetti e le informazioni contenute in questo documento costituiscono comunicazione riservata e non possono essere usate o duplicate senza autorizzazione. La riproduzione di una parte o dell’intero documento senza approvazione di StatSoft Italia è espressamente proibita. |
||
|
Home
I Prodotti
I Soluzioni
I Servizi
I Supporto
I Download
I Clienti
I Partner
I Contattaci
I Richiedi
Prezzi
©Copyright StatSoft Italia srl, 1984-2005. StatSoft, StatSoft logo, STATISTICA, SEWSS, SEDAS, Data Miner, SEPATH and GTrees are trademarks of StatSoft, Inc.
|
||