STATISTICA Tecniche Esplorative Multivariate offre un'ampia selezione di tecniche esplorative, dall'analisi di raggruppamento ai metodi avanzati degli alberi di classificazione, con numerosi strumenti interattivi per l'esplorazione di relazioni e regolarità; un completo linguaggio Visual Basic è integrato all'interno di questo pacchetto.
| STATISTICA's Exploratory Data Analysis tools helped us identify that environmental conditions at one plant were contributing to process variation. An overall reduction in variation is the end result. Robert Brey, R&D Group Georgia-Pacific Resins, Inc |
Sono inclusi i seguenti moduli (cfr. Descrizione Dettagliata):
Questo modulo include un'implementazione completa dei metodi di raggruppamento (k-means, raggruppamento gerarchico, unione a due vie). Il programma può eseguire l'analisi a partire sia dai dati grezzi che da delle matrici di distanza. L'utente può riunire in gruppi casi, variabili o entrambi, basandosi su un'ampia varietà di misure di distanza (incluse Euclidea, Euclidea quadrata, di Manhattan, di Chebychev, ecc.) e basandosi su numerose regole di unione (inclusi legame singolo, completo, media pesata o non pesata dei centroidi, metodo di Ward, ed altro). Le matrici delle distanze possono essere salvate per ulteriori analisi con altri moduli di STATISTICA. Nel raggruppamento k-means, l'utente ha il totale controllo sui centri iniziali. Possono essere eseguite analisi di piani estremamente ampi; per esempio, l'unione gerarchica (ad alberi) può essere eseguita su matrici con oltre 1000 variabili, o con oltre 1 milione di distanze. Oltre ai classici output per l'analisi dei gruppi è disponibile un completo insieme di statistiche descrittive e diagnostiche (ad es., la programmazione completa dei livelli di unione nell'analisi dei gruppi gerarchica, la tabella ANOVA nell'analisi k-means). I dati sull'appartenenza ai gruppi possono essere aggiunti al file dati di input per delle analisi successive. Le opzioni grafiche nel modulo Analisi dei Gruppi (Cluster Analysis) includono dendrogrammi (diagrammi ad albero) personalizzabili, plot di matrici delle unioni a due-vie in curve di livello discrete, grafici delle pianificazioni delle unioni, grafici delle medie nell'unione k-means, e molto altro.
Il modulo Analisi Fattoriale contiene un'ampia selezione di statistiche ed opzioni e fornisce un'implementazione completa delle tecniche analitiche fattoriali (e fattoriali gerarchiche), comprensive di statistiche diagnostiche e di numerosi grafici analitici ed esplorativi. Con questo modulo si possono eseguire delle analisi delle componenti principali e fattoriali gerarchiche (oblique), e possono essere trattati problemi analitici di grosse dimensioni (ad es., con migliaia di variabili). L'analisi fattoriale confermativa può essere fatta anche con il modulo Modellazione di Equazioni Strutturali e Analisi dei Path (SEPATH) disponibile in STATISTICA Modelli Lineari/Non Lineari Avanzati.
STATISTICA include inoltre un programma progettato per l'analisi delle componenti principali e la classificazione. L'output comprende gli autovalori (regolari, cumulati, relativi), i pesi fattoriali, i punteggi fattoriali (che possono essere aggiunti al file di dati, esaminati graficamente come icone e ricodificati interattivamente), e diverse altre statistiche e diagnostiche. Le rotazioni disponibili includono la Varimax, Equamax, Quartimax, Biquartimax (sia normalizzata che semplice) e le rotazioni Oblique. Lo spazio fattoriale può essere rappresentato graficamente "strato per strato" in scatterplot 2D o 3D, con i valori delle variabili etichettati; altri grafici integrati sono lo Scree plot, vari scatterplot, i grafici a barre e a linee, ecc. Dopo aver ricavato una soluzione fattoriale, l'utente può ricalcolare (cioè ricostruire) la matrice di correlazione a partire dal rispettivo numero di fattori, per valutare la bontà del modello fattoriale. Possono essere utilizzati come input sia dati grezzi che matrici di correlazione. L'analisi fattoriale confermativa ed altre analisi possono essere eseguite con il modulo Modellazione di Equazioni Strutturali e Analisi dei Path (SEPATH) disponibile in STATISTICA Modelli Lineari/Non Lineari Avanzati, dove un Wizard per Analisi Fattoriali Confermative guiderà l'utente passo-passo lungo il processo di specificazione del modello.
Questo modulo offre un'implementazione completa delle procedure per l'analisi della correlazione canonica; è in grado di elaborare file di dati grezzi o matrici di correlazione e si possono calcolare tutte le statistiche standard per questo tipo di analisi (inclusi autovettori, autovalori, coefficienti di ridondanza, pesi canonici, varianze estratte, test di significatività per ogni radice, ecc.) e numerose diagnostiche estese. I punteggi delle variabili canoniche possono essere calcolati per ogni caso, aggiunte al file dati di input e visualizzati tramite i plot ad icona integrati. Il modulo Correlazione Canonica include anche numerosi grafici integrati (incluso il grafico degli autovalori e delle correlazioni canoniche, lo scatterplot delle variabili canoniche e molti altri). Si noti che è possibile eseguire delle analisi confermative sulle relazioni strutturali tra variabili latenti anche con il modulo Modellazione di Equazioni Strutturali e Analisi dei Path (SEPATH) disponibile in STATISTICA Modelli Lineari/Non Lineari Avanzati. Le tecniche stepwise e best subset di selezione dei predittori per piani MANOVA/MANCOVA si possono trrovare nel modulo Modelli di Regressione Generali (GRM) in STATISTICA Modelli Lineari/Non-Lineari Avanzati.
Questo modulo include una selezione completa di procedure per lo sviluppo e la valutazione di sondaggi e questionari. Come in tutti gli altri moduli di STATISTICA, possono essere analizzati piani estremamente ampi (è possibile analizzare scale con un massimo di 300 item in una singola analisi). L'utente può calcolare le statistiche di attendibilità per tutti gli item in una scala, selezionare interattivamente dei sottoinsiemi, oppure ottenere i confronti tra sottoinsiemi di item tramite il metodo di suddivisione. In una singola analisi l'utente può valutare l'attendibilità di una scala-somma o di sottoscale. Quando si eliminano interattivamente degli item, i nuovi valori di attendibilità sono calcolati istantaneamente senza dovere rielaborare il file dati. L'output include le matrici di correlazione e statistiche descrittive per gli item, l'alfa di Cronbach, l'alfa standardizzato, la correlazione media tra item, la tabella ANOVA completa per la scala, l'insieme completo di statistiche sugli item (inclusi gli R multipli sugli item completi), l'attendibilità tra due gruppi confrontati e la correlazione tra i due gruppi corretta per l'attenuazione. Una selezione di grafici (inclusi vari scatterplot, istogrammi, plot a linee ed altri grafici integrati) ed un insieme di procedure interattive del tipo what-if sono disponibili per aiutare nello sviluppo delle scale. Per esempio, l'utente può calcolare l'attendibilità attesa dopo aver aggiunto un particolare numero di item nella scala, e può stimare il numero di item che dovrebbero essere aggiunti nella scala per ottenere un particolare valore di attendibilità. Inoltre, l'utente può stimare la correlazione corretta per l'attenuazione tra la scala corrente ed un'altra misura ipotetica (data la credibilità della scala corrente).
Alberi di Classificazione
Il modulo Alberi di Classificazione fornisce una completa implementazione degli algoritmi più recenti per un'efficiente generazione e verifica della robustezza degli alberi di classificazione (un albero di classificazione è una regola per prevedere la classe cui appartiene un oggetto a partire dai valori di alcuni predittori). STATISTICA Data Miner offre ulteriori metodi avanzati per gli alberi di classificazione, come ad esempio gli Alberi Boosted, le Foreste Casuali, gli Alberi di Classificazione e Regressione Generale (GTrees) e i Modelli CHAID (Chi-square Automatic Interaction Detection) Generali. Gli alberi di classificazione possono essere prodotti utilizzando predittori categoriali, ordinati, od entrambi, e adoperando suddivisioni (o "diramazioni") univariate o a combinazione lineare.
Le opzioni dell'analisi includono la possibilità di eseguire suddivisioni approfondite o di tipo discriminante; la selezione non distorta delle variabili (come in QUEST); le regole di stop diretto (come in FACT) o la potatura dal basso verso l'alto (come in C&RT); la potatura in base ai tassi di errata classificazione o alla devianza; le misure di bontà di adattamento Chi-quadro generalizzato, G-quadro o indice di Gini. I costi di errata classificazione a priori possono essere specificati come uguali, stimati a partire dai dati, oppure definiti dall'utente. L'utente può inoltre specificare il valore v per la convalida incrociata (o cross-validation) durante la costruzione dell'albero, il valore v per la convalida incrociata v-fold per la stima dell'errore, la dimensione della regola ES (Errore Standard), la dimensione minima dei nodi prima di potare, i semi per la generazione dei numeri casuali, e il valore alfa per la selezione delle variabili. Sono forniti dei grafici per esplorare i dati di input e di output.
Vedere anche: Alberi di Classificazione e Regressione Generale (GTrees) e Modelli CHAID (Chi-square Automatic Interaction Detection) Generali.
Analisi delle Corrispondenze
Questo modulo comprende un'implementazione completa delle tecniche di analisi delle corrispondenze semplice e multipla. Il programma accetta come input a) file dati con variabili di gruppo, che saranno utilizzate per calcolare le tabelle incrociate, b) file dati con frequenze (o qualche altra misura di corrispondenza, associazione, similitudine, confusione, ecc.) e variabili che identifichino le celle nella tabella di input, o c) infine file dati con soltanto le frequenze (o altre misure di corrispondenza; in questo caso l'utente può direttamente digitare e analizzare una tabella di frequenze). Per l'analisi delle corrispondenze multiple l'utente può anche specificare direttamente una tabella di Burt come input per le analisi. Il programma calcolerà diverse tabelle, incluse le tabelle delle percentuali di riga, di colonna e totali, i valori attesi, i valori osservati meno gli attesi, le deviazioni standardizzate e i contributi ai valori del Chi-quadro. Il modulo Analisi delle Corrispondenze calcolerà gli autovalori ed autovettori generalizzati, e riporterà tutti i test diagnostici standard, inclusi i valori singolari, gli autovalori e le proporzioni di inerzia per ogni dimensione. L'utente può anche scegliere manualmente il numero di dimensioni oppure specificare un valore soglia per la percentuale cumulata massima di inerzia. Il programma calcolerà i valori delle coordinate standard per punti riga e colonna. L'utente può scegliere tra standardizzazione dei profili riga, colonna o entrambi. Per ogni dimensione e punto riga o colonna, il programma calcolerà l'inerzia, la qualità e i valori coseno al quadrato. Inoltre l'utente potrà visualizzare (su spreadsheet) le matrici dei vettori singolari generalizzati; come per tutti i valori degli spreadsheet, queste matrici possono essere gestite anche tramite STATISTICA Visual Basic, per esempio, per implementare un metodo non standard per calcolare le coordinate. L'utente può calcolare i valori delle coordinate e le statistiche ad esse correlate (valori di qualità e coseno al quadrato) per i punti supplementari (di riga o colonna), e confrontare i risultati con i punti regolari di riga e colonna. I punti supplementari possono essere specificati anche per l'analisi delle corrispondenze multiple. Oltre agli istogrammi 3D, l'utente può produrre un plot a linee per gli autovalori per tutte le tabelle, e plot 1D, 2D e 3D per i punti riga e colonna. I punti riga e colonna possono essere anche combinati in un singolo grafico, con qualunque punto supplementare (ogni tipo di punto userà un colore e un marcatore differente, cosicché differenti tipi di punto potranno essere facilmente identificati nel grafico). Tutti i punti sono etichettati ed è disponibile una opzione per troncare le etichette dei nomi dei punti ad uno specifico numero di caratteri.
Scaling Multidimensionale
Il modulo Scaling Multidimensionale include un'implementazione completa dello scaling multidimensionale (non metrico). Possono essere analizzate matrici di similarità, dissimilarità o correlazione. La configurazione iniziale può essere calcolata dal programma (tramite analisi delle componenti principali) o specificata dall'utente. Il programma utilizza una procedura iterativa per minimizzare il valore di stress ed il coefficiente di alienazione. L'utente può controllare le iterazioni e osservare i cambiamenti di questi valori. Le configurazioni finali possono essere rilette tramite spreadsheet e scatterplot 2D e 3D dello spazio ottenuto dall'analisi, con i punti dei casi etichettati. L'output include i valori dello stress grezzo (raw F), del coefficiente di stress S di Kruskal e del coefficiente di alienazione. La bontà di adattamento può essere valutata tramite diagrammi di Shepard (con d-cappello e d-star). Come per tutti gli altri risultati di STATISTICA, la configurazione finale può essere salvata in un file dati.
Analisi Discriminante
Il modulo Analisi Discriminante è un'implementazione completa dell'analisi di funzioni discriminanti stepwise multivariate. STATISTICA include anche il modulo Modelli di Analisi Discriminante Generali per l'adattamento dei piani ANOVA/ANCOVA a variabili categoriali dipendenti e per eseguire diversi tipi di analisi avanzate (ad es., selezione best subset dei predittori, profili di probabilità a posteriori, ecc.) Il programma eseguirà l'analisi stepwise in avanti o all'indietro, oppure inserirà nel modello blocchi di variabili definiti dall'utente.
Oltre ai numerosi grafici e alle diverse statistiche diagnostiche che descrivere le funzioni discriminanti, il programma offre anche un'ampia gamma di opzioni e di statistiche per la classificazione di casi vecchi o nuovi (per una convalida del modello). Gli output includono i lambda di Wilks, i lambda parziali, l'F per "inserire" (o "rimuovere" dal modello), i p-level, i valori di tolleranza e l'R-quadro. Il programma eseguirà una completa analisi della correlazione canonica e riporterà gli autovalori e i loro valori cumulati per tutte le radici, più i rispettivi p-level, i coefficienti semplici e standardizzati delle funzioni discriminanti (canoniche), la matrice dei coefficienti strutturali (dei pesi fattoriali), le medie per le funzioni discriminanti ed i punteggi discriminanti per ogni caso (che possono essere aggiunti automaticamente al file dati). I grafici integrati includono istogrammi dei punteggi canonici all'interno di ogni gruppo (e tra tutti i gruppi combinati), scatterplot speciali per coppie di variabili canoniche (dove l'appartenenza al gruppo di singoli casi è marcata visivamente), una completa selezione di grafici categorizzati (multipli) che permette di esplorare le distribuzioni e le relazioni tra le variabili dipendenti tra i gruppi (inclusi i box-and-whisker plot multipli, gli istogrammi, gli scatterplot, e i probability plot) e molto altro. Il modulo Analisi Discriminante calcola anche le funzioni di classificazione standard per ogni gruppo. La classificazione dei casi può essere letta in termini di distanze di Mahalanobis, probabilità a posteriori, o classificazioni effettive; i punteggi per i singoli casi possono essere visualizzati tramite plot ad icone esplorativi o altri grafici multidimensionali integrati direttamente con gli spreadsheet dei risultati. Tutti questi valori possono essere automaticamente aggiunti al file dati corrente per delle analisi successive. È possibile visualizzare la matrice riassuntiva di classificazione, contenete il numero e la percentuale dei casi classificati correttamente. L'utente ha a disposizione diverse opzioni per specificare le probabilità di classificazione a priori e può determinare le condizioni di selezione per includere o escludere dei casi specifici (ad es., per testare le funzioni di classificazione con un nuovo campione).
Modelli Generali di Analisi Discriminante (GDA)Il modulo STATISTICA Modelli di Analisi Discriminante Generale (GDA) è un'applicazione ed estensione dei Modelli Lineari Generali (GLM) per i problemi di classificazione. Come il modulo Analisi Discriminante, GDA permette di eseguire analisi discriminante standard e stepwise ed implementa l'analisi discriminante come un caso speciale di modello lineare generale, offrendo così delle tecniche analitiche estremamente utili, innovative ed efficienti. Come nell'analisi discriminante tradizionale, GDA consente di specificare una variabile categoriale dipendente. Per le analisi, l'appartenenza a gruppi (in relazione alla variabile dipendente) è quindi codificata con variabili indicatrici che possono essere utilizzate tutti i metodi di GRM. Nelle finestre di dialogo dei risultati, sono presenti le numerose statistiche dei residui disponibili in GRM e GLM. GDA fornisce degli efficienti strumenti per applicazioni di data mining o per la ricerca. GDA calcola tutti i risultati standard dell'analisi discriminante, inclusi i coefficienti delle funzioni discriminanti, i risultati dell'analisi canonica (coefficienti grezzi e standardizzati, test step-down delle radici canoniche, ecc.), le statistiche di classificazione (incluse la distanza di Mahalanobis, le probabilità a posteriori, la classificazione effettiva dei casi del campione di analisi e di validazione, la matrice di errata classificazione, ecc.) ecc.
Approccio computazionale e applicazioni uniche. In aggiunta ai classici risultati dell'analisi discriminante, sono calcolate diverse statistiche specializzate. Ad esempio, è possibile ottenere i "profili di prefenza", combinando le probabilità di previsione a posteriori dei gruppi con i punteggi di preferenza, e quindi lasciare che il programma trovi i valori o le combinazioni di predittori categoriali che ottimizzano tali punteggi. In questo modo, GDA offre degli efficienti strumenti per il data mining o per delle ricerche applicate; per esempio, si potrebbero utlizzare i metodi del modulo DOE (Pianificazione degli Esperimenti) per generare un piano sperimentale per il miglioramento della qualità, applicare questo piano alle risposte categoriali (ad es., distinguendo le classi tra "superiore", "accettabile" o "scarsa"), e quindi modellare le probabilità a posteriori di previsione di tali outcome utilizzando le variabili del piano sperimentale.
Risultati standard dell'analisi discriminante. STATISTICA GDA calcolerà tutti i risultati standard dell'analisi discriminante, compresi i coefficienti delle funzioni discriminanti, i risultati dell'analisi canonica (coefficienti grezzi e standardizzati, test step-down delle radici canoniche, ecc.), le statistiche di classificazione (incluse la distanza di Mahalanobis, le probabilità a posteriori, la classificazione effettiva dei casi del campione di analisi e di validazione, la matrice di errata classificazione, ecc.) ecc.
Caratteristiche Uniche di GDA, disponibili soltanto in STATISTICA. In aggiunta, STATISTICA GDA include diverse funzioni e risultati unici:
Specificiazione dei predittori e degli effetti; costruzione del modello:
1. Supporto di predittori continui e categoriali; invece di permettere l'utilizzo dei soli predittori continui, GDA consente all'utente di definire piani ANOVA e ANCOVA sia semplici che complessi, come ad esempio delle misture di variabili continue e categoriali, dei piani polinomiali (superfici di risposta), fattoriali o annidati, ecc.
2. Effetti con più gradi di libertà nella selezione stepwise; i termini che formano il set di predittori (sia continui con un solo grado di libertà che degli effetti con più gradi di libertà) possono essere usati nelle analisi stepwise, dove gli effetti con più gradi di libertà saranno sempre inseriti o rimossi in blocco.
3. Selezione best subset dei prdittori; gli effetti con uno o più gradi di libertà pssono essere specificati per la selezione best subset; il programma selezionerà soltanto quei predittori (fino ad un numero massimo definito dall'utente) che producono la miglior discriminazione tra i gruppi.
4. Selezione dei predittori sulla base dei tassi di errata classificazione; GDA consente all'utente di costruire dei modelli (e quindi di selezionare i predittori) non solo sulla base dei criteri tradizionali (ad es., p-per-inserire/rimuovere; lambda di Wilks), ma anche in funzione dei tassi di errata classificazione; in altre parole il programma selezionerà quei predittori che massimizzano la precisione della classificazione, sia per i casi utilizzati per la stima dei parametri, che per un campione di convalida incrociata (per evitare problemi di sovra-adattamente); queste tecniche permettono a GDA di raggiungere dei livelli di performance tipici degli strumenti di data mining e quindi può essere utilizzato come alternativa a tali procedure (alberi di classificazione, metodi appositi di reti neurali, ecc.; GDA tende ad essere più veloce di tali tecniche, perché si basa sui più efficienti Modelli Lineari Generali).
Statistiche e risultati; profiling:
1. Risultati, statistiche diagnostiche e grafici dettagliati; in aggiunta ai risultati standard, GDA offre numerose imformazioni ausiliari per aiutare l'utente nel giudicare la bontà del modello di analisi discriminante scelto (statistiche descrittive e grafici, distanza di Mahalanobis, distanza di Cook e leverages per i predittori, ecc.).
2. Profiling delle classificazioni attese; GDA include un'adattamento dei profili risposta presenti in GLM e GRM; queste opzioni consentono di determinare rapidamente i valori (o i livelli) dei predittori che massimizzano la probabilità di classificazione a posteriori di un singolo gruppo o di un insieme di gruppi dell'analisi; in pratica, l'utente può facilmente calcolare i profili dei predittori che identificano uno dei gruppi (o un set di gruppi) presenti nell'analisi.
STATISTICA Tecniche Esplorative Multivariate è compatibile con Windows XP, Windows Vista e Windows 7.
Sono disponibili la versione a 64-bit e le versioni multiprocessore altamente ottimizzate.
Per richiedere il prezzo di questa soluzione, si compili questo form.