STATISTICA
Contattaci
  
 
  
Prodotti / Soluzioni
 
 
 
Caratteristiche Uniche
 
 

StatSoft Email Tips

Esempio di Analisi Discriminante applicata al RISCHIO DI CREDITO BANCARIO tramite l'utilizzo di STATISTICA Data Miner

File dati. L’insieme di dati da usare in questo capito, CreditRisk.sta, contiene 425 casi e 15 variabili relative ai clienti passati e correnti che per varie ragioni hanno richiesto un prestito in banca. L’insieme di dati contiene diverse informazioni relative ai clienti, alla particolare situazione finanziaria, al motivo del prestito, allo loro occupazione, agli estremi demografici, ecc. ed infine alla variabile dipendente, ovvero sia allo stato relativo all’assolvimento del Credito, classificabile per ogni caso come Buono o Cattivo sulla base dell’esperienza passata dell’istituto di credito. Di seguito è possibile osservare una porzione del file dati di riferimento:

Ed ecco una spiegazione di ognuna delle variabili d'interesse:

1. Checking Acct (Conto Corrente)

Questa variabile contiene le informazioni relative allo stato del conto corrente di ogni cliente.

OBalance

Il cliente ha un conto corrente, ma al momento il suo saldo è pari a 0

Low

Il cliente ha un conto corrente, ma con un saldo uguale o inferiore a $100

High

Il cliente ha un conto corrente con un saldo superiore a $100

No Acct

Il cliente non ha un conto corrente

2. Credit History (Storia Passata)

Questa variabile contiene le informazioni relative alla storia creditizia del cliente.

All Paid

Il cliente ha sempre rifondato tutti i prestiti oppure non ne ha mai richiesto alcuno

Bank Paid

Il cliente ha sempre rifondato tutti i prestiti effettuati da questa banca

Current

Il cliente sta attualmente pagando il prestito

Delay

Il cliente ha ritardato nei pagamenti dei prestiti sia correntemente che in passato

Critical

Il cliente è molto in ritardo nel pagamento dei prestiti

3. Purpose (Motivo del Prestito)

Questa variabile contiene le informazioni relative al motivo del prestito.

Small Appliance (Piccole Apparecchiature)

Furniture (Mobilio)

Car New (Automobile Nuova)

Education (Istruzione)

Business

Large Appliance (Grandi Apparecchiature)

Repairs (Riparazioni)

Car Used (Automobile Usata)

Retraining (Riqualificazione)

Other (Altro)

4. Savings Acct (Depositi a Risparmio)

Questa variabile contiene le informazioni relative allo stato dei depositi a risparmio.

Low

Il cliente ha un deposito a risparmio con un saldo uguale o inferiore a $50

MedLow

Il cliente ha un deposito a risparmio con un saldo compreso tra $50 e $250

MedHigh

The customer has a savings account with balance between $250 and $500

High

The customer has a savings account with balance above $500

No Acct

The customer does not have a savings account

5. Emplyment (Impiego)

Questa variabile contiene le informazioni relative alla durata dell’impiego per ogni soggetto considerato.

Very Short

Il cliente ha lo stesso impiego da non più di 1 anno

Short

Il cliente ha lo stesso impiego da più di 1 anno e da non più di 4 anni

Medium

Il cliente ha lo stesso impiego da più di 4 anni e da non più di 7 anni

Long

Il cliente ha lo stesso impiego da più di 7 anni

Unemployed

Al momento il cliente è disoccupato

6. Gender (Sesso)

Questa variabile contiene le informazioni relativa al sesso di ogni cliente.

M – Male (Maschio)

F – Female (Femmina)

7. Personal Status (Stato Personale)

Questa variabile contiene le informazioni relative allo stato personale di ogni cliente.

Single

Married (Sposato)

Divorced (Divorziato)

8. Housing (Casa)

Questa variabile consente di specificare se il cliente possiede una propria casa oppure se è in affitto.

Own (Propria)

Rent (In Affitto)

Other (Altro)

9. Job (Lavoro)

Questa variabile contiene le informazioni circa il tipo di lavoro svolto da ogni cliente.

Unskilled (Non Qualificato)

Skilled (Qualificato)

Management (Amministrativo)

Unemployed (Disoccupato)

10. Telephone (Telefono)

Questa variabile contiene le informazioni relative al possesso di un apparecchio telefonico (Yes o No).

11. Foreign (Straniero)

Questa variabile contiene le informazioni relative alla cittadinanza straniera (Yes) o no (No) per ogni cliente.

12. Months Acct (Durata del Conto)

Questa variabile contiene le informazioni relative alla durata (in mesi) della permanenza del conto in banca.

13. Residence Time (Durata della Residenza)

Questa variabile contiene le informazioni relative alla durata (in anni) della permanenza di ogni cliente presso la propria residenza corrente.

14. Age (Età)

Questa variabile contiene le informazioni relative all’età (espressa in anni) di ogni cliente.

15. Credit Standing (Stato del Credito)

Questa variabile contiene le informazioni relative al fatto che il credito del cliente sia da considerarsi Good o Bad. Questo è ciò che si desidera essere in grado di prevedere sulla base dell’osservazione delle altre variabili.

In questo esempio, l’obiettivo sarà verificare in quale misura le variabili sopra elencate (Checking Acct, Credit History, ecc.) consentano di effettuare una discriminazione tra coloro i quali sono caratterizzati da un buono stato di credito e coloro che invece sono caratterizzati da un cattivo stato di credito. Nel caso in cui tale discriminazione sia realizzabile, sarà possibile costruire un modello in grado di classificare o prevedere nuovi casi sulla base delle variabili dipendenti e quando non è noto lo stato di credito dei soggetti considerati. Ciò potrebbe rivelarsi utile, ad esempio, per stabilire se accettare o meno la richiesta di prestito di una persona.

Tale analisi verrà effettuata tramite l'utilizzo di STATISTICA Data Miner. Una volta aperto un nuovo progetto di Data Mining sarà possibile specificare le analisi da analizzare: in questo caso Credit Standing verrà specificata come variabile dipendente categoriale, mentre le rimanenti variabili verranno specificate come variabili indipendenti.

Dopo aver specificato le variabili da analizzare sarà possibile accedere - attraverso il Visualizzatore di Nodi di STATISTICA Data Miner - alla più completa selezione di strumenti analitici per il data mining:

Il file dati verrà qui suddiviso in insiemi di dati di addestramento e di test. Per quale motivo? Ebbene, qui si desidera costruire (addestrare) un modello d’analisi discriminante su un determinato insieme di dati e testarlo su un altro insieme di dati (che non ha giocato alcun ruolo nel processo di costruzione del modello) in modo da convalidare l’accuratezza del modello:

L'immagine precedente ritrae una porzione dello spazio di lavoro di STATISTICA Data Miner. Come si può intuire tale spazio è facilmente organizzabile tramite semplici operazioni di tipo drag-and-drop e di connessione tra le icone (nodi) di analisi inserite nel progetto. I nodi definiscono la natura dei differenti flussi di analisi che caratterizzano l'intero progetto.

A questo punto inseriremo nel progetto il principale nodo d'analisi. Tale nodo consentirà di creare un modello in grado di prevedere lo stato creditizio (buono o cattivo) dei nuovi soggetti applicanti. Il modello verrà costruito sulla base dei dati di addestramento (Training):

Il modulo Analisi Discriminante Generale (GDA) è un modulo "generale" di analisi discriminante in quanto applica i metodi del modello lineare generale (si veda anche Modelli Lineari Generali (GLM)) al problema dell'analisi delle funzioni discriminanti. Una panoramica generale sull'analisi delle funzioni discriminanti, nonché sui metodi tradizionali per adattare modelli lineari a variabili dipendenti categoriali e predittori continui, è fornita nel contesto del modulo Analisi Discriminante. Nel modulo GDA, il problema dell'analisi delle funzioni discriminanti è "riclassificato" come un modello lineare multivariato generale, in cui le variabili dipendenti di interesse sono vettori codificati tramite dummy che riflettono l'appartenenza ai gruppi di ciascun caso:

L'obiettivo principale è creare un modello sulla base del quale sia successivamente possibile creare previsioni su ogni nuovo applicante inserito nel ns. database. Per fare ciò è necessario inserire un nodo particolare che immagazzinerà i dati sottostanti il modello in corso di costruzione. Tale nodo è Calcola Migliore Classificazione Prevista da Tutti i Modelli:

Facendo un semplice doppio clic su un qualsiasi nodo di analisi inserito nello spazio di lavoro di STATISTICA Data Miner è possibile accedere ad una serie di opzioni utili per la specifica impostazione del nodo di analisi. Di seguito è visualizzata la finestra di dialogo Modifica Parametri relativa al nodo ANCOVA con GDA a Miglior Sottoinsieme e Stepwise con Deployment:

Definite le opzioni di analisi saremo in grado di eseguire il progetto di Data Miner facendolo eseguire sia sull'insieme di dati di addestramento che sull'insieme di dati di test:

Una volta visualizzati i risultati, faremo un doppio clic sul nodo dei risultati ANCOVA con GDA a Miglior Sottoinsieme e Stepwise con Deployment presente nel pannello di destra del nostro progetto di Data Mining.

Questo è lo spreadsheet principale da considerare per determinare quanto bene le funzioni di classificazione correnti prevedano l’appartenenza dei casi ai differenti casi. La matrice di classificazione riporta il numero di casi correttamente classificati (sulla diagonale della matrice) e quelli classificati in modo errato. Le misure qui riportate forniscono un'idea sulla bontà del modello previsionale ottenuto.

In questo caso, il modello generale prevede correttamente se l'applicante sarà un buon cliente oppure no con un’accuratezza pari al 82,13%.

È interessare osservare i risultati dei test di significatività multivariati: Questi ci dicono come al fine della spiegazione della variabile dipendente Credit Standing, tra le variabili indipendenti risultano significative la variabile Età e la variabile Conto Corrente.

A questo punto abbiamo a disposizione un modello previsionale: dapprima costruito sulla base dei dati di addestramento sottopostigli e poi validato attraverso un "passaggio" attraverso l'insieme di dati di test. L'ultimo passaggio necessario per completare il processo di realizzazione del processo è trasferire le informazioni di deployment provenienti dal modello sul nodo Calcola Migliore Classificazione Prevista da Tutti i Modelli:

Una volta raccolta l'informazione di deployment proveniente dal modello nel suddetto nodo, lo rinomineremo quest'ultimo Nodo di Previsione e disabiliteremo tutte le sue connessioni del Data Miner in modo conservare l'informazione e non essere soggetto ad alcun "riaddestramento" del modello.

Adesso il nostro progetto di data mining è pronto per ricevere nuove osservazioni e classificarle tramite l'utilizzo di tale modello. Supponiamo infatti che si presenti presso la nostra agenzia un nuovo applicante, ovvero sia una persona che ci richiede un prestito. Supponiamo inoltre che tale "candidato" presenti le seguenti caratteristiche:

Checking Acct (Conto Corrente): Low
Credit History (Storia Passata): Current
Purpose (Motivo del Prestito): Car Used
Savings Acct (Depositi a Risparmio): Low
Emplyment (Impiego): Unemployed
Gender (Sesso): M
Personal Status (Stato Personale): Single
Housing (Casa): Rent
Job (Lavoro): Unskilled
Telephone (Telefono): Yes
Foreign (Straniero): Yes
Months Acct (Durata del Conto): 13
Residence Time (Durata della Residenza): 3
Age (Età): 23

Specifichiamo inoltre un valore indicativo per la variabile dipendente Credit Standing che verrà o meno confermata dal modello precedentemente realizzato. In questo caso specificheremo "ovviamente" uno stato di credito di tipo Bad. Il formato dei nuovi dati di input sarà il seguente:

Inseriremo semplicemente tale file dati nel ns. progetto di Data Mining e lo collegheremo con il nodo Nodo di Previsione:

Dopo aver eseguito il progetto otterremo quanto segue:

Il nodo Final Prediction for Credit Standing contiene i risultati della nostra analisi. In particolare conterrà la classificazione assegnata al nuovo applicante:

Il primo valore visualizzabile è il valore indicativo fornito dall'agente bancario al momento del trattamento dei dati personali dell'applicante. L'ultimo valore (corrispondente alla colonna 18 dello spreadsheet Final Prediction for Credit Standing) riporta il valore previsto del modello. La colonna 17 indica se la previsione del modello è corretta rispetto all'indicazione originaria circa il rischio di credito personale.

Il modello conferma lo stato di Cattivo per il rischio di credito del nuovo applicante.

 

Analisi realizzata dal servizio di consulenza di StatSoft Italia:

Sevizio di Consulenza di StatSoft Italia

Le idee, i concetti e le informazioni contenute in questo documento costituiscono comunicazione riservata e non possono essere usate o duplicate senza autorizzazione. La riproduzione di una parte o dell’intero documento senza approvazione di StatSoft Italia è espressamente proibita.


©Copyright StatSoft Italia srl, 1984-2005. StatSoft, StatSoft logo, STATISTICA, SEWSS, SEDAS, Data Miner, SEPATH and GTrees are trademarks of StatSoft, Inc.