|
Contattaci
Prodotti / Soluzioni
| ||
![]()
Oltre ai tradizionali moduli per la costruzione automatica degli alberi (come ad esempio Modelli ad Alberi di Classificazione/Regressione Generali, Modelli CHAID Generali), STATISTICA Data Miner dispone anche di strumenti progettati per la costruzione delle medesime tipologie di alberi in modalità interattiva. È possibile scegliere di adottare un metodo per la costruzione di alberi (binari) di classificazione e di regressione, oppure un metodo CHAID per la costruzione di alberi (decisionali), e successivamente stabilire se accrescere l’albero interattivamente (scegliendo la variabile ed il criterio di suddivisione ad ogni passo), oppure automaticamente. Quando l’albero viene accresciuto in modalità interattiva, si avrà il totale controllo su tutti gli aspetti relativi alla modalità di selezione e di valutazione in corrispondenza della suddivisione di ogni eventuale nodo candidato, sulla modalità di categorizzazione dell’intervallo di variazione dei valori dei predittori, ecc. Gli strumenti altamente interattivi disponibili in questo modulo consentono di accrescere e potare all’indietro gli alberi, per valutare rapidamente la qualità dell’eventuale albero di classificazione o di regressione, e per calcolare tutte le statistiche di supporto riproducibili in corrispondenza di ogni stadio. Tutto ciò è finalizzato all’esplorazione completa della natura di ogni soluzione. Questo strumento risulta estremamente utile sia per scopi di data mining predittivo, sia per scopi di analisi esplorativa dei dati (EDA), ed include un insieme completo di opzioni per il deployment automatico e per la previsione di nuove osservazioni. Albero di Regressione. Questo esempio si basa sui dati relativi a censimenti effettuati tra il 1960 ed il 1970 attraverso una selezione casuale di 30 diverse provincie statunitensi. L'obiettivo di tale esempio è dimostrare come talvolta gli alberi di regressione possano fornire soluzioni molto semplici e facilmente interpretabili. Di seguito è riportata l'informazione relativa ad ogni variabile del file dati di riferimento: Si tratta in sostanza di uno screenshot dell'Editor Specifiche di Variabile di STATISTICA:
Obiettivo dello Studio. L'obiettivo di tale analisi è studiare il legame tra i diversi parametri considerati ed il tasso di povertà, ovvero sia stabilire quali siano le variabili che meglio permettono di prevedere la percentuale di famiglie che vivono al di sotto del livello di povertà in corrispondenza delle diverse provincie. Per questa ragione, la variabile 3 (Pt_Poor) sarà trattata come variabile dipendente o variabile criterio, mentre tutte le altre variabili come variabili indipedenti o variabili predittrici. Definizione dell'Analisi. L'immagine seguente rappresenta il Pannello d'Avvio di Alberi Interattivi. Come Metodo costruzione modello sarà selezionata un'analisi di regressione e classificazione tradizionale (C&RT), In corrispondenza del tipo di analisi verrà selezionata Analisi di Regressione:
Attraverso la finestra per la specificazione delle opzioni d'analisi sarà possibile selezionare PT_POOR come variabile dipendente e tutte le altre come variabili predittrici continue:
Il modulo Alberi Interattivi (C&RT, CHAID) non costruisce alberi per impostazione predefinita, quindi nel momento in cui, dopo aver specificato tutte le opzioni di analisi, l'analisi verrà avviata, e per prima cosa sarà visualizzata la finestra di dialogo Risultati Alberi Interattivi C&RT. Di seguito è riportato uno screenshot di tale finestra: da notare il numero di opzioni disponibili in tutte le schede in essa contenute:
Scelta delle suddivisioni. In corrispondenza di ogni nodo, viene calcolata una particolare statistica che dovrà consentire di stabilire quale sia la variabile predittrice in grado di produrre la migliore suddivisione od il miglior progresso dell'adattamento generale del modello. Tale statistica è data dalla somma quadratica spiegata dalla suddivisione considerata:
La variabile PT_PHONE (percentuale di famiglie dotate di telefono) risulta essere il migliore predittore (iniziale). Per verificare quale sia la specifica suddivisione "proposta" dal programma, sarà disponibile il pulsante Personalizza suddiv.:
Per impostazione predefinita, la suddivisione migliore per la variabile PT_PHONE dovrebbe corrispondere al valore 72,00, ovvero sia al 72% (di famiglie dotate di apparecchio telefonico). Per semplificare l'interpretazione finale dell'albero, questo valore verrà arrotondato al 75% (cioè, "se tre quarti o più delle famiglie sono dotate di apparecchi telefonici, allora..."). Visualizzazione dell'albero attraverso il visualizzatore del registro. Attraverso il Visualizzatore Albero sarà possibile analizzare non solo i dettagli relativi ai singoli nodi dell'albero ma anche la distribuzioni dei dati in corrispondenza di questi:
Una delle caratteristiche più utili del visualizzatore ad albero del registro è la possibilità di visualizzare "animazioni" della soluzione finale. Si può iniziare facendo un clic in corrispondenza del Nodo1, è quindi possibile usare i pulsanti della tastiera per scorrere i grafici relativi ai diversi nodi dell'albero. Si può chiaramente osservare come le suddivisioni consecutive producano nodi di purezza sempre crescente, cioè l'omogeneità delle risposte corrisponde ad una sempre minore deviazione standard della curva normale. Crescita Automatica dell'Albero, Brushing su Albero. Adesso l'albero verrà finalizzato attraverso la crescita automatica dell'albero fino al "punto di stop" finale, definito dai criteri di stop accettati (per impostazione predefinita) in corrispondenza della scheda Stop della finestra Opzioni Estese di Alberi Interattivi C&RT. A questo punto per analizzare quanto appena detto, saranno impiegati gli strumenti di brushing qui disponibili. Una volta attivata la funzione di Brushing su Albero, se si seleziona di visualizzare i risultati all'interno di un registro, l'albero corrente verrà visualizzato sotto forma di grafico scorrevole all'interno del registro di output:
A fianco di tale registro verrà visualizzata anche la finestra di dialogo Comandi di Brushing. È possibile selezionare una qualsiasi opzione e tornare all'interfaccia utente di brushing al fine di rivedere i risultati (ad esempio, immediatamente dopo aver accresciuto o aver potato l'albero); si noti che le medesime opzioni saranno disponibili anche su menu a scelta rapida, accessibile attraverso un semplice clic sul tasto destro del mouse in corrispondenza del cursore del brushing (lente d'ingrandimento). Adesso, premendo un semplice pulsante (Accresci albero) sarà possibile "finire" l'albero. Nell'immagine seguente è riportata l'immagine dell'albero accresciuto automaticamente:
Come si può vedere, il programma ha effettuato una sola suddivisione successivamente a quella corrispondente a PT_PHONE. Modifica di un Ramo dell'Albero. Per osservare quale altra variabile avrebbe potuto fornire una buona suddivisione in corrispondenza di ID=3, sarà sufficiente effettuare nuovamente un'operazione di brushing , selezionando il nodo numero 3 e quindi premendo il pulsante Statistiche predittori; si noti che in modalità di brushing su albero, lo spreadsheet dei risultati verrà automaticamente inviato in una finestra singola, che potrà venire posizionata (ed aggiornata) in una zona conveniente dello schermo. Successivamente all'aggiornamento di tale spreadsheet, il programma restituirà automaticamente l'utente alla modalità di brushing in modo da poter selezionare statistiche e operazioni di crescita/potatura dell'albero aggiuntive:
Dall'osservazione di questo spreadsheet è possibile verificare come la variabile PT_RURAL (Percentuale di popolazione rurale) possa fornire una suddivisione di "qualità" simile a quella fornita (scelta automaticamente) dalla suddivisione in corrispondenza della variabile PT_PHONE. Per effettuare la suddivisione sulla base della variabile PT_RURAL, sarà sufficiente selezionare il nodo ID=3 (nel caso non sia già selezionata/evidenziata), e quindi selezionare il pulsante Suddiv. person.:
A questo punto verrà visualizzata la finestra di dialogo Selezione e suddivisione personalizzata di variabili. In questa finestra verrà premuto il pulsante Seleziona un predittore per selezionare PT_RURAL come predittore corrispondente a tale suddivisione.
Dopo aver premuto il pulsante Accresci sarà possibile tornare all'interfaccia utente di brushing su albero: Conclusione e Confronti. Adesso sarà possibile confrontare la bontà d'adattamento di questo albero con l'albero generato automaticamente dal programma. Sarà possibile, ad esempio, eseguire un'analisi identica usando il modulo Alberi Interattivi, e accrescere l'albero senza modificare alcuna suddivisione automatica. Tuttavia se si utilizzano le funzionalità di Stime rischio disponibili nella scheda Riepilogo della finestra Risultati Alberi Interattivi C&RT, sarà possibile verificare come l'albero accresciuto automaticamente sia migliore di quello costruito "a mano". Questo aspetto non è insolito, in quanto i metodi di costruzione automatica degli alberi si basano sempre sul miglioramento massimo dell'adattamento generale del modello in corrispondenza di ogni suddivisione. Tuttavia, attraverso la costruzione e l'esplorazione "manuali" degli alberi sarà spesso possibile ottenere utili "spunti" relativi ai propri dati, identificare importanti predittori alternativi (diversi da quelli scelti automaticamente), e definire vincoli pratici relativamente a quali variabili predittrici possano venire misurate accutamente ed economicamente nel momento in cui si prevedono nuove osservazioni. Certi predittori scelti automaticamente dal programma potrebbero infatti non essere facilmente osservabili nel mondo reale, così come ad esempio il Reddito personale. In questo caso, si potrebbe desiderare escludere manualmente nella fase di costruzione del modello le suddivisioni corrispondenti alla variabile Reddito per escluderla dal processo di previsioni dei nuovi casi. Analisi realizzata dal servizio di consulenza di StatSoft Italia: Le idee, i concetti e le informazioni contenute in questo documento costituiscono comunicazione riservata e non possono essere usate o duplicate senza autorizzazione. La riproduzione di una parte o dell’intero documento senza approvazione di StatSoft Italia è espressamente proibita. |
||
|
Home
I Prodotti
I Soluzioni
I Servizi
I Supporto
I Download
I Clienti
I Partner
I Contattaci
I Richiedi
Prezzi
©Copyright StatSoft Italia srl, 1984-2005. StatSoft, StatSoft logo, STATISTICA, SEWSS, SEDAS, Data Miner, SEPATH and GTrees are trademarks of StatSoft, Inc.
|
||