STATISTICA Data Miner offre la selezione più completa di tecniche statistiche, esplorative e di visualizzazione dei dati, disponibile sul mercato, e include anche le procedure più recenti per le reti neurali/apprendimento automatico e per la classificazione.
Le funzionalità analitiche complete di STATISTICA sono disponibili per il data mining, incapsulate in oltre 300 nodi che possono essere selezionati da un Visualizzatore strutturato e personalizzabile.
Le architetture specializzate degli spazi di lavoro del data mining sono state ottimizzate per ottenere la massima velocità ed efficienza, e possono essere classificate nelle cinque aree tematiche che seguono.
Numerosi nodi analitici sono disponibili per la creazione di grafici esplorativi, per calcolare statistiche descrittive, tabulazioni, ecc. Questi nodi possono essere connessi a sorgenti dati, oppure a tutti i risultati intermedi. È presente un modulo specializzato di STATISTICA (STATISTICA Esploratore Drill-Down) per esplorare interattivamente i dati "sezionando" le variabili selezionate, e per visualizzare le categorie o gli intervalli di valori presenti in queste variabili. Per esempio, è possibile "sezionare" la variabile Sesso per visualizzare la distribuzione della variabile Reddito per le sole donne; dopodichè si potrà analizzare uno specifico gruppo di reddito, per esplorare (tramite la creazione di riassunti grafici) le variabili selezionate solamente per le donne in un unico gruppo di reddito. Una caratteristica unica di STATISTICA Esploratore Drill-Down è la possibilità di selezionare e deselezionare variabili e categorie su cui eseguire il drill-down in un qualsiasi ordine; in questo modo, l'utente potrà in seguito deselezionare la variabile Sesso e visualizzare i grafici e le statistiche per il gruppo di Reddito selezionato, ma per uomini e donne insieme. Un'altra importante funzionalità è data dai numerosi metodi di categorizzazioni ("stratificazioni") offerte, fornendo così una alta flessibilità per "sezionare" i dati. STATISTICA Esploratore Drill-Down può essere utilizzato con dati grezzi, connessioni a database per l'elaborazione in loco, o su qualunque risultato intermedio calcolato in un progetto di STATISTICA Data Miner
STATISTICA Data Miner offre la più ampia selezione di strumenti per costruire modelli di classificazione disponibile nel mercato, inclusi i modelli lineari generalizzati (per risposte binomiali e multinomiali), gli alberi di classificazione, i modelli ad alberi di classificazione e di regressione generali, i modelli CHAID generali, le tecniche di analisi dei gruppi ed i modelli di analisi discriminante generale. Inoltre, in STATISTICA Data Miner sono disponibili i numerosi classificatori avanzati basati su reti neurali presenti nel modulo STATISTICA Reti Neurali, i quali possono essere usati insieme alle altre tecniche di classificazione.
STATISTICA Data Miner offre la più ampia selezione di strumenti per costruire modelli di data mining per il deployment, sulla base delle tecniche lineari, non lineari o di reti neurali e dei metodi per esplorare i dati; l'utente può stimare modelli predittivi anche sulla base di tecniche multivariate. In sintesi, STATISTICA offre una gamma completa di tecniche, dai modelli di regressione lineare e non lineare, ai modelli lineari generalizzati e additivi generalizzati, dai metodi a reti neurali alle MARSplines. STATISTICA Data Miner include inoltre delle tecniche che spesso non sono presenti nei software di data mining, come i metodi a minimi quadrati parziali (per la riduzione del numero di variabili), l'analisi di sopravvivenza (per l'analisi di dati contenenti osservazioni censurate; ad es., ricerche mediche, studi sulla durata dei prodotti, ecc.), i modelli di equazioni strutturate (per costruire e valutare modelli lineari confermativi), l'analisi delle corrispondenze (per analizzare la struttura di tabelle di variabili qualitative), l'analisi fattoriale e lo scaling multidimensionale (per esplorare le strutture con numerose variabili), e molti altri.
STATISTICA Data Miner include un'ampia selezione di tecniche tradizionali per la previsione (cioè, non basate su reti neurali) (tra le quali ARIMA, lisciamento esponenziale con componenti stagionali, scomposizione spettrale di Fourier, scomposizione stagionale, analisi di regressione e a ritardi polinomiali, ecc.), e di metodi basati su reti neurali per dati derivanti da serie storiche.
Questo strumento contiene la più ampia selezione disponibile di metodi per reti neurali disponibile sul mercato. Questa potente componente di STATISTICA Data Miner offre degli strumenti per affrontare praticamente qualunque problema di data mining (inclusa la classificazione, l'individuazione di strutture nascoste e la previsione). Una delle caratteristiche uniche dell'esploratore di reti neurali è la selezione di intelligent problem solvers e di wizard automatici, che utilizzano metodi di Intelligenza Artificiale per aiutare nella risoluzione dei problemi più impegnativi tipici delle reti neurali (come la selezione della migliore architettura di rete neurale e del miglior sottoinsieme di variabili). L'Esploratore offre la più ampia selezione di architetture e procedure avanzate per le reti neurali, e di algoritmi altamente performanti, che includono: percettroni multistrato, reti di funzioni a base radiale, reti neurali probabilistiche, reti neurali per la regressione generalizzata, mappe di caratteristiche auto-organizzanti, modelli lineari, reti di componenti principali e reti per l'analisi dei gruppi. Inoltre è possibile costruire e valutare anche degli ensemble (insiemi) di reti di tutte queste architetture. I metodi di stima includono la back propagation, conjugate gradient descent, quasi-Newton, Levenberg-Marquardt, quick propagation, delta-bar-delta, LVQ, algoritmi di potatura, ed altro ancora; sono disponibili delle opzioni per la convalida incrociata, il bootstrap, il sottocampionamento, l'analisi di sensibilità, ecc.
Uno strumento che guida gli utenti in tutti i passaggi di un processo di data mining:

Una crescente tendenza generale nel data mining è di considerare maggiormente le soluzioni basate su semplici processi analitici, piuttosto che creare strumenti sempre più sofisticati. In questo senso, l'approccio di STATISTICA Data Miner Recipe (SDMR) offre un'intuitiva interfaccia grafica che consente ai meno esperti di eseguire dei processi di data mining come se si stesse seguendo una ricetta (da qui recipe), in quando l'utente verrà guidato all'interno di un percorso fatto di semplici finestre, dove è possibile eseguire operazioni di regressione, classificazione e clustering. I processi completi possono essere utilizzati per effettuare previsioni di nuovi dati.
SDMR copre l'intero processo del data mining - dall'interrogazione di database esterni al deployment finale delle soluzioni - e consiste dei seguenti passi.
1. Identificare i dati su cui stimare i modelli
2. Pulire i dati e rimuovere i predittori ridondanti
3. Identificare i predittori importanti dall'insieme di variabili indipendenti maggiormente correlate con la variabile risposta di interesse
4. Generare un insieme di possibili modelli
5. Eseguire la valutazione comparativa dei modelli per identificare il modello migliore in termini di performance e complessità
6. Utilizzare il modello selezionato per effettuare le previsioni di nuovi dati tramite l'efficiente motore di deployment integrato (oppure opzionalmente STATISTICA Enterprise)
Con pochi click del mouse, il programma vi guiderà attraverso l'intero processo analitico, dalla definizione degli input e del probema di analisi, attraverso la preparazione dei dati e la costruzione dei modelli, fino alla selezione del modello migliore e al deployment.

Anche se la maggior parte delle complessità computazionali del data mining vengono risolte automaticamente in STATISTICA Data Miner Recipe, il programma applicherà e proverà un grande numero di algoritmi avanzati e determinerà automaticamente quale approccio garantisce le prestazioni migliori.
Quindi questo strumento è particolarmente adatto ai principianti per la sua semplicità di utilizzo, ma non significa che la sua potenza analitica sia sfavorita nei confronti delle tecniche più complesse.
Un'ampia porzione delle funzionalità analitiche presenti in STATISTICA Data Miner è ricavata dai motori di calcolo dei moduli inclusi negli altri prodotti di STATISTICA:
Tuttavia, diversi moduli includono delle tecniche di data mining e di modellazione altamente specializzate, fornite soltanto assieme a STATISTICA Data Miner. Di seguito sono riportate le informazioni tecniche relative a questi moduli specializzati.
Questo modulo selezionerà automaticamente sottoinsiemi di variabili da file dati estremamente grandi o da database connessi per l'elaborazione in loco (IDP). Il modulo può gestire un numero praticamente illimitato di variabili: possono essere analizzate letteralmente milioni (!) di input per selezionare i predittori per la regressione o la classificazione. Nello specifico, il programma include diverse opzioni per selezionare variabili ("caratteristiche") che sono utili o informative per le successive analisi. Gli algoritmi unici implementati nel modulo Selezione delle Caratteristiche e Filtraggio delle Variabili selezioneranno le variabili predittive continue e categoriali che hanno una forte relazione con le variabili dipendenti continue o categoriali di interesse, indipendentemente dal fatto che la relazione possa essere semplice (ad es., lineare) o complessa (non lineare, non monotòna). Pertanto, la selezione non viene distorta in favore di un particolare tipo di modello. Sono inoltre disponibili diverse opzioni per la selezione delle caratteristiche. Questo modulo è particolarmente utile in combinazione con l'elaborazione in loco di database, poiché può essere usato per analizzare enormi liste di variabili di input, selezionare le candidate che con maggiore probabilità conterranno informazioni rilevanti per le analisi di interesse e, tra queste, indicare quali meglio si adattano per uno specifico progetto di data miner. Queste opzioni permettono a STATISTICA Data Miner di gestire dataset di dimensioni che spaziano nell'ordine dei giga- o terabyte (cfr Confronto delle prestazioni utilizzando grandi data set).
Questo modulo contiene un'implementazione completa dell'algoritmo A-priori, che si utilizza per individuare ("effettuare il mining per") regole di associazione, come ad esempio, "i clienti che ordinano il prodotto A, spesso acquistano anche il prodotto B o C" o "gli impiegati che sono favorevoli all'iniziativa X, spesso concordano anche con la questione Y e sono contenti della situazione Z" (cfr. Agrawal and Swami, 1993; Agrawal and Srikant, 1994; Han and Lakshmanan, 2001; Witten and Frank, 2000). Il modulo Regole Associative permette di elaborare rapidamente enormi data set per trovare associazioni (relazioni) tra specifici modalità delle variabili categoriali, impostando i valori soglia entro cui effettuare la ricerca. Questa operazione è molto comune nei progetti di data mining applicati a database contenenti registrazioni delle transazioni dei clienti (ad es., gli oggetti acquistati da ogni cliente), ed anche nell'ambito del text mining. Come per tutti i moduli di STATISTICA, i dati presenti nei database esterni possono essere elaborati "in loco" dal modulo Regole Associative (cfr. IDP).
I risultati possono essere visualizzati nelle classiche tabelle e in dei grafici 2D e 3D dedicati, dove le associazioni più forti sono evidenziate da una linea più spessa.

Un primo passo in molti progetti di data mining è l'esplorazione interattiva dei dati, per ottenere una prima "impressione" sui tipi di variabili coinvolte nell'analisi e sulle loro possibili relazioni. L'obiettivo dell'Esploratore Drill-Down Interattivo è quello di fornire uno strumento che unisca l'esplorazione grafica, l'analisi dei dati e la tabulazione, e che permetta di visualizzare le distribuzioni delle variabili e le loro relazioni con le altre variabili, e di identificare le osservazioni appartenenti agli specifici sottogruppi di dati.
Come Funziona l'Esploratore Drill-Down. La metafora del "drill-down" all'interno del data mining riassume perfettamente le operazioni di base di un processo analitico: il programma consente all'utente di selezionare le osservazioni specificando dei sottogruppi di valori di una specifica variabile di interesse (ad es., Sesso e Spesa Media come nell'esempio sopra); in pratica è possibile esplorare gli strati più nascosti dei dati, costruendo delle condizioni di selezione più o meno complesse che permettono di formare dei sottogruppi di interesse dei dati.
Drilling "up."La natura interattiva dell'Esploratore Drill Down permette non solo di effettuare il drill-down dei dati o di un database (selezionare gruppi di osservazioni con condizioni di selezione logiche sempre più specifiche), ma anche il "drill up": in qualsiasi momento è possibile selezionare uno dei gruppi di variabili (categorie) precedentemente specificati e togliendola dall'elenco di condizioni del drill-down; durante l'elaborazione dei dati, il programma selezionerà quindi solo quelle osservazioni che si adattano alle condizioni di selezione rimanenti (casi), e aggiornerà di conseguenza i risultati.
Applicazioni dell'Esploratore Drill-Down Interattivo. L'esempio descritto nella sezione Come Funziona l'Esploratore Drill-Down è estremamente semplice, esponendo solamente le funzionalità di base del programma. La vera forza del modulo STATISTICA Esploratore Drill-Down Interattivo si trova nei diversi risultati ausiliari che possono essere automaticamente aggiornati durante l'esplorazione interattiva: è possibile selezionare un elenco di variabili per esaminare e calcolare:
Quindi ad esempio, si potrebbero esaminare le tipologie di acquisti realizzate dai clienti con diverse caratteristiche demografiche, studiare l'efficacia di alcuni farmaci all'interno di vari gruppi, età, ecc. di trattamento, oppure estrarre i clienti che acquisteranno, con più probabilità, un nuovo prodotto, da un database di clienti precedenti, sulla base di un attento studio dei segmenti di mercato rivelati tramite l'analisi drill-down.
Il modulo Analisi dei Gruppi EM e k-Means Generalizzata è un'estensione delle tecniche disponibili nel modulo STATISTICA Analisi dei Gruppi, progettato per gestire data set di enormi dimensioni e per consentire il raggruppamento di variabili continue e/o categoriali. Il programma dispone di uno schema modificato della convalida incrociata v-fold per determinare il miglior numero di gruppi dai dati. Questa estensione rende il modulo Analisi dei Gruppi EM e k-Means Generalizzata uno strumento di data mining particolarmente utile per l'apprendimento non supervisionato e per il "pattern recognition". Sono comprese inoltre diverse opzioni per la generazione di codice (C/C++/C#, Visual Basic e PMML) per effettuare il deployment delle soluzioni in un ambiente data mining. Numerosi risultati dettagliati sono riportati per permettere agli utenti di valutare l'adeguatezza della soluzione finale, per esaminare le assegnazioni finali delle osservazioni ai gruppi e per salvare tali assegnamenti ed altre statistiche per ulteriori analisi. Le implementazioni dei metodi di raggruppamento del modulo Analisi dei Gruppi EM e k-Means Generalizzata sono altamente scalabili e questi metodo possono essere applicati anche a dataset estremamente grandi.
Le strutture presenti in STATISTICA Modelli Additivi Generalizzati sono un'implementazione dei metodi sviluppati e resi popolari da Hastie and Tibshirani (1990); ulteriori discussioni dettagliate su questi metodi si possono trovare anche in Schimek (2000). Le strutture presenti in STATISTICA Modelli Additivi Generalizzati sono un'implementazione dei metodi sviluppati e resi popolari da Hastie and Tibshirani (1990); ulteriori discussioni dettagliate su questi metodi si possono trovare anche in Schimek (2000). Il programma è in grado di gestire predittori continui e categoriali. Si noti che STATISTICA comprende una completa selezione di metodi per adattare i modelli non lineari ai dati, come ad esempio i moduli Stima Non Lineare, Modelli Lineari Generalizzati e Alberi di Classificazione e Regressione Generali.
Distribuzioni e funzioni legame. Il programma permette all'utente di scegliere tra un'ampia selezione di distribuzioni per la variabile dipendente e di funzioni legame per gli effetti delle variabili predittive sulla variabile risposta:
Distribuzioni Normale, Gamma, e Poisson:
| Legame Log: | f(z) = log(z) |
| Legame Inversa: | f(z) = 1/z |
| Legame Identità: | f(z) = z |
Distribuzione Binomiale:
| Legame Logit: | f(z)=log(z/(1-z)) |
Lisciatore di scatterplot. Il programma usa il lisciatore spline cubico con gradi di libertà definiti dall'utente per trovare una trasformazione (funzione) ottima delle variabili predittive.
Statistiche dei risultati. Il programma riporterà un insieme completo di statistiche dei risultati per aiutare nella valutazione dell'adeguatezza e dell'adattamento del modello, e nell'interpretazione dei risultati; nello specifico, i risultati includono: la cronologia delle iterazioni per i calcoli di adattamento del modello, le statistiche riassuntive che includono il valore di R-quadro complessivo (calcolato a partire dalla devianza), i gradi di libertà del modello, e le statistiche dettagliate relative alle risposte previste, ai residui, ed al lisciamento delle variabili predittive. I grafici dei risultati includono le risposte osservate confrontate con i residui, i valori previsti contro i residui, gli istogrammi dei valori osservati e dei valori residui, i normal probability plot dei valori residui ed i grafici dei residui parziali per ogni predittore, indicando l'adattamento della spline cubica per la soluzione finale; per le risposte binarie (ad es., modelli logit) si possono anche generare i diagrammi lift.
Il Modello ad Alberi di Classificazione e Regressione Generali (GC&RT) p un metodo di partizionamento ricorsivo utilizzato per classificare o dividere i casi in base ad un insieme di predittori. A differenza dei classici algoritmi di regressione, questo modulo troverà delle regole gerarchiche che forniscono la migliore separazione tra le osservazioni di una variabile risposta continua e categoriale, sulla base dei valori di uno o più predittori continui o categoriali. Questo modulo è un'implementazione completa dei metodi descritti come CART® da Breiman, Friedman, Olshen, and Stone (1984). Tuttavia, il programma contiene diverse estensioni che spesso non si trovano nelle implementazioni di questo algoritmo, per renderlo più adatto ai problemi di data mining.
Potatura, selezione e validazione degli alberi.
Il programma fornisce diverse opzioni per controllare la costruzione degli alberi, la potatura e la selezione della miglior soluzione. Con variabili dipendenti continue, la potatura dell'albero si può basare sulla varianza o sul metodo FACT, mentre con variabili dipendenti categoriali, si utilizzano gli errori di classificazione, la varianza o il metodo FACT. Si possono specificare il numero massimo di nodi o il minimo numero di osservazioni per nodo. Sono fornite opzioni per convalidare il miglior albero, usando la convalida incrociata V-fold, oppure applicando l'albero a nuove osservazioni di un campione di validazione. Per le variabili dipendenti categoriali, cioè per problemi di classificazione, si possono scegliere diverse misure per modificare l'algoritmo e per valutare la qualità dell'albero di classificazione finale: sono presenti opzioni per specificare la probabilità di classificazione a priori e i costi di errata classificazione; le misure di bontà di adattamento includono la misura di Gini, Chi-quadro e G-quadro.
Dati mancanti e suddivisioni surrogate. I valori mancanti nei predittori possono essere gestiti permettendo al programma di determinare le suddivisioni di variabili surrogate, cioè variabili che sono simili al predittore usato per una specifica suddivisione (nodo).
Piani in stile ANOVA/ANCOVA. Oltre alla tradizionale analisi in stile C&RT, è possibile combinare variabili predittive continue e categoriali in piani ANOVA/ANCOVA ed eseguire l'analisi usando una matrice per i predittori. Questa opzione permette di valutare e confrontare modelli complessi, nonché la loro efficacia per la previsione e la classificazione usando varie tecniche analitiche (ad es., Modelli Lineari Generali, Modelli Lineari Generalizzati, Modelli di Analisi Discriminante Generali, ecc.).
Visualizzatore dell'albero. Oltre ai semplici grafici riassuntivi, è possibile visualizzare gli alberi utilizzando intuitivi visualizzatori dell'albero interattivi, che permettono di espandere o comprimere i nodi dell'albero, e di visualizzare rapidamente le informazioni più importanti sul rispettivo nodo o sulla classificazione dell'albero. Per esempio, si può evidenziare (fare clic su) un particolare nodo nel pannello del visualizzatore e vedere immediatamente i tassi di di errata classificazione. Il visualizzatore dell'albero è uno strumento molto efficiente ed intuitivo per visualizzare strutture ad albero complesse, usando metodi usati comunemente in applicazioni Windows per visualizzare informazioni strutturate gerarchicamente. Si possono visualizzare simultaneamente diversi visualizzatori di alberi, ciascuno contenente l'albero finale o un sottoalbero potato dall'albero più grande; ponendo fianco a fianco diversi visualizzatori è facile confrontare strutture ad albero e sottoalberi differenti. Il Visualizzatore degli Alberi di STATISTICA è un'importante innovazione che aiuta nell'interpretazione di alberi decisionali complessi.
Alberi interattivi. Sono inoltre presenti delle opzioni per visualizzare gli alberi interattivamente, usando gli strumenti di brushing grafico di STATISTICA oppure ponendo grandi grafici ad albero in finestre grafiche scorribili in cui i grafici grandi possono essere ispezionati "dentro" una finestra più piccola (scorribile).
Statistiche dei risultati. Il modulo GC&RT di STATISTICA fornisce un numero molto elevato di risultati, disponibili anche per ogni singolo nodo. Infatti vengono calcolate le statistiche descrittive relative alla classificazione, ai costi di classificazione, al guadagno, e via di seguito. Sono disponibili anche dei riassunti grafici unici, che includono gli istogrammi (per problemi di classificazione) per ogni nodo, dei dettagliati per le variabili dipendenti continue (ad es., normal probability plot, scatterplot), e i grafici delle coordinate parallele, in modo da fornire un riepilogo efficiente delle distribuzioni delle risposte per grandi problemi di classificazione. Come in tutte le procedure di STATISTICA, i risultati numerici possono essere usati come input per altre analisi, permettendo così un'esplorazione rapida ed un'ulteriore analisi delle osservazioni classificate (ad es., si potrebbe usare il modulo GTrees per produrre una classificazione iniziale dei casi, e quindi usare la selezione best subset delle variabili in GDA per trovare variabili aggiuntive per possano aiutare nella classificazione).
Generatore di Codice C, C++, C#, Java, STATISTICA Visual Basic, SQL. Le informazioni contenute nell'albero finale possono essere rapidamente incorporate nei propri programmi personalizzati o nelle query su database, attraverso le opzioni disponibili nel generatore di codice C/C++/C#, Java, STATISTICA Visual Basic, PMML o SQL. Lo script in STATISTICA Visual Basic verrà generato in una forma particolarmente adatta per l'inclusione nei nodi personalizzati per STATISTICA Data Miner.
In modo simile all'implementazione degli Alberi di Classificazione e di Regressione GC&RT, il modulo CHAID Generale fornisce non solo un'implementazione completa della tecnica originale, ma estende questi metodi all'analisi di piani in stile ANOVA/ANCOVA.
CHAID Standard. L'analisi CHAID può essere eseguita sia per variabili dipendenti continue che categoriali. Sono disponibili molte opzioni per controllare la costruzione degli alberi: l'utente può controllare il numero minimo di osservazioni per nodo, il numero massimo di nodi e le probabilità per suddividere e riunire le categorie; l'utente può anche richiedere una ricerca approfondita della migliore soluzione (CHAID Approfondito); si possono calcolare le statistiche di della convalida V-fold per valutare la stabilità della soluzione finale; per i problemi di classificazione, si possono specificare costi di errata classificazione.
Piani in stile ANOVA/ANCOVA. Oltre all'analisi CHAID tradizionale, è possibile combinare variabili predittive continue e categoriali in piani ANOVA/ANCOVA ed eseguire l'analisi usando una matrice per i predittori. Questa opzione permette di valutare e confrontare modelli complessi, nonché la loro efficacia per la previsione e la classificazione usando varie tecniche analitiche (ad es., Modelli Lineari Generali, Modelli Lineari Generalizzati, Modelli di Analisi Discriminante Generali, ecc.).
Visualizzatore dell'albero. Oltre ai semplici grafici riassuntivi, è possibile visualizzare gli alberi utilizzando intuitivi visualizzatori dell'albero interattivi, che permettono di espandere o comprimere i nodi dell'albero, e di visualizzare rapidamente le informazioni più importanti sul rispettivo nodo o sulla classificazione dell'albero. Per esempio, si può evidenziare (fare clic su) un particolare nodo nel pannello del visualizzatore e vedere immediatamente i tassi di di errata classificazione. Il visualizzatore dell'albero è uno strumento molto efficiente ed intuitivo per visualizzare strutture ad albero complesse, usando metodi usati comunemente in applicazioni Windows per visualizzare informazioni strutturate gerarchicamente. Si possono visualizzare simultaneamente diversi visualizzatori di alberi, ciascuno contenente l'albero finale o un sottoalbero potato dall'albero più grande; ponendo fianco a fianco diversi visualizzatori è facile confrontare strutture ad albero e sottoalberi differenti. Il Visualizzatore degli Alberi di STATISTICA è un'importante innovazione che aiuta nell'interpretazione di alberi decisionali complessi.
Statistiche dei risultati. Il modulo CHAID di STATISTICA fornisce un numero molto elevato di risultati, disponibili anche per ogni singolo nodo. Infatti vengono calcolate le statistiche descrittive relative alla classificazione, ai costi di classificazione, al guadagno, e via di seguito. Sono disponibili anche dei riassunti grafici unici, che includono gli istogrammi (per problemi di classificazione) per ogni nodo, dei dettagliati per le variabili dipendenti continue (ad es., normal probability plot, scatterplot), e i grafici delle coordinate parallele, in modo da fornire un riepilogo efficiente delle distribuzioni delle risposte per grandi problemi di classificazione. Come in tutte le procedure di STATISTICA, i risultati numerici possono essere usati come input per altre analisi, permettendo così un'esplorazione rapida ed un'ulteriore analisi delle osservazioni classificate (ad es., si potrebbe usare il modulo GTrees per produrre una classificazione iniziale dei casi, e quindi usare la selezione best subset delle variabili in GDA per trovare variabili aggiuntive per possano aiutare nella classificazione).
In aggiunta ai moduli per la costruzione automatica di alberi (ad es., gli Alberi di Classificazione e di Regressione Generali, i Modelli CHAID Generali), STATISTICA Data Miner include anche strumenti progettati per la costruzione di alberi interattivi. È possibile scegliere il metodo binario od il metodo CHAID per la costruzione di alberi e far crescere l'albero ad ogni step interattivamente (attraverso la scelta della variabile e del criterio di suddivisione) o automaticamente. Durante la crescita interattiva degli alberi, si ha il totale controllo su tutti gli aspetti per la selezione e la valutazione dei candidati per ogni suddivisione (split), per la categorizzazione del range dei valori contenuti nei predittori, ecc. Gli strumenti altamente interattivi disponibili per questo modulo permettono di crescere e potare gli alberi all'indietro per valutare rapidamente la qualità dell'albero, per la previsione, e per il calcolo ad ogni stadio di tutte le statistiche supplementari, in modo da esplorare completamente ogni soluzione. Tale strumento è estremamente utile per il data mining predittivo così come per l'analisi esplorativa dei dati (EDA), ed include l'insieme completo di opzioni per il deployment automatico, per la previsione o per la classificazione delle nuove osservazioni.
Le ricerche più recenti in ambito statistico e di macchine learning, suggeriscono che per alcuni compiti "problematici" di stima e di previsione, l'utilizzo in successione di semplici alberi boosted può produrre previsioni più accurate rispetto all'applicazione di architetture di reti neurali o di alberi singoli. STATISTICA Data Miner dispone del modulo Alberi Boosted per l'applicazione di questa tecnica. Sono forniti il controllo totale su tutti gli aspetti della procedura di stima e i riepiloghi dettagliati ad ogni passo di tale procedura, in modo che da poter visualizzare e valutare il progresso dell'analisi. I risultati includono le stesse statistiche prodotte dal modulo Alberi di Classificazione e Regressione Generali. Sono presenti anche metodi automatici per il deployment della soluzione finale, per nuove previsioni o classificazioni.
Il modulo STATISTICA Foreste Causali è un'implementazione dell'algoritmo sviluppato da Breiman. Un Foresta Casuale consiste in un insieme di alberi semplici, che producono una risposta per ogni insieme di valori dei predittori. Si dispone del totale controllo di tutte gli aspetti chiave della procedura di stima e dei parametri, compresa la complessità dei singoli alberi, il numero massimo di alberi in una foresta, i criteri di arresto della procedura di stima, ecc. Questo modulo può gestire grandi data set, che contengono innumerevoli casi o variabili. I risultati includono le stesse statistiche prodotte dal modulo Alberi di Classificazione e Regressione Generali. Sono presenti anche metodi automatici per il deployment della soluzione finale, per nuove previsioni o classificazioni.
Questo metodo esegue analisi di regressione e di classificazione attraverso la costruzione di soglie decisionali non lineari. Data la natura dello spazio delle caratteristiche nel quale queste soglie vengono individuate, le Support Vector Machine possono esibire un alto grado di flessibilità nella gestione di problemi di varia complessità. SVM supporta quattro tipi di modelli Support Vector, con kernel lineari, polinomiali, RBF e sigmoidei. Fornisce inoltre funzionalità per la gestione dei dati non bilanciati. Inoltre, quando necessario, possono essere applicate tecniche di convalida incrociata sui dati di addestramento per la selezione dei diversi parametri del modello. Un ampio numero di grafici e di spreadsheet possono essere generati per valutare la qualità dell'adattamento e per aiutare l'utente nell'interpretazione dei risultati. Infine sono disponibili metodi automatici per il deployment della soluzione finale.
STATISTICA K-Nearest Neighbors è un metodo basato sulla memoria che, contrariamente a quanto avviene per altri metodi statistici, non richiede alcun addestramento (cioè, in questo caso non vi è alcun modello da adattare). Questo metodo cade all'interno della categoria di "Prototype Method". Esso funziona sulla base dell'idea intuitiva secondo la quale oggetti vicini tra loro apparterranno con molta probabilità alla medesima categoria. Quindi, in KNN, le previsioni sono basate su un insieme di esempi prototipo usati per prevedere nuovi dati sulla base del così detto "voto di maggioranza" (per problemi di classificazione) e sulla base della media delle previsioni (per problemi di regressione) sull'insieme di K prototipi più vicini ("nearest"). Questo metodo è in grado di gestire insiemi di dati contenenti un grande numero di casi. Inoltre, quando necessario, possono essere applicate tecniche di convalida incrociata sui dati di addestramento per la selezione dei diversi parametri del modello. Un ampio numero di grafici e di spreadsheet possono essere generati per valutare la qualità dell'adattamento e per aiutare l'utente nell'interpretazione dei risultati. Infine sono disponibili metodi automatici per il deployment della soluzione finale.
Il modulo STATISTICA MARSplines (Spline di Regressione Adattabili Multivariate) è basato su un'implementazione completa di questa tecnica, come originariamente proposto da Friedman (1991; Multivariate Adaptive Regression Splines, Annals of Statistics, 19, 1-141); in STATISTICA Data Miner, le opzioni di MARSplines sono state ulteriormente migliorate per risolvere problemi di regressione e di classificazione, con predittori continui e categoriali.

Il programma, che in termini di funzionalità può essere considerato una gereralizzazione ed una modifica degli Alberi di Regressione e Classificazione Multipli (GC&RT) stepwise, è stato progettato (ottimizzato) per l'elaborazione di insiemi di dati molto grandi. Sono disponibili numerose opzioni per i risultati e le diagnostiche, che consentono di valutare numericamente e graficamente la qualità della soluzione.
Generatore di Codice C, C++, C#, Java, STATISTICA Visual Basic, SQL. Le informazioni contenute nel modello finale possono essere rapidamente incorporate nei propri programmi personalizzati o nelle query su database, attraverso le opzioni disponibili nel generatore di codice C/C++/C#, Java, STATISTICA Visual Basic, PMML o SQL. Lo script in STATISTICA Visual Basic verrà generato in una forma particolarmente adatta per l'inclusione nei nodi personalizzati per STATISTICA Data Miner.
Il modulo STATISTICA Bontà di Adattamento produrrà diversi indici della bontà di adattamento per variabili risposta continue e categoriali (per problemi di regressione e di classificazione). Questo modulo è stato progettato per "valutazione competitiva dei modelli" nei progetti di data mining, in modo da scegliere la soluzione migliore. Come input il programma utilizza i valori previsti o le classificazioni calcolate da un qualsiasi modulo di STATISTICA, e fornisce in output diversi indici e grafici per ogni risposta o classificazione. Le statistiche sulla bontà di adattamento per le risposte continue includono la deviazione ai minimi quadrati (LSD), la deviazione media, l'errore quadratico relativo, l'errore assoluto relativo ed il coefficiente di correlazione. Nei problemi di classificazione, il programma calcolerà le statistiche Chi-quadro, G-quadro (chi-quadro di massima verosimiglianza), le percentuali di discordanze (tassi di errata classificazione), la perdita quadratica e la perdita d'informazione statistica.
Il modulo STATISTICA Deployment Rapido di Modelli Predittivi genererà rapidamente le previsioni da uno o più modelli, precedentemente stimati, in base alle informazioni memorizzate nel linguaggio di deployment standard PMML (Predictive Model Markup Language). Queste informazioni possono essere facoltativamente memorizzate nel file dati di input corrente o in un database [se i dati di input correnti sono stati estratti mediante una query ad un database esterno per l'Elaborazione di Database In-Loco (IDP)] per effettuare successivamente delle analisi che coinvolgono altre variabili del file dati o un data warehouse.
PMML è un linguaggio basato su XML per la codifica di informazioni (risultati) dei progetti di data mining. Il modulo Deployment Rapido di Modelli Predittivi è particolarmente indicato per la generazione di previsioni per un elevato numero di osservazioni (casi), poiché legge i dati una sola volta, memorizzando solamente un'unica osservazione alla volta.
Questo modulo è in grado di valutare più modelli contemporaneamente e generare dei risultati per confrontare le rispettive previsioni. È inoltre possibile salvare i dati per ulteriori elaborazioni, insieme ad altre variabili presenti nel file dati corrente. Questa funzionalità è estremamente utile quando si eseguono analisi dettagliate delle capacità di previsione di diversi modelli.
Quando possibile, il programma calcolerà i valori previsti, la qualità degli indici di adattamento (quando i valori osservati sono stati inclusi) e le lift chart e le gain chart semplici o sovrapposte, per problemi di classificazione binomiale o multinomiale.
STATISTICA Data Miner è compatibile con Windows XP, Windows Vista e Windows 7.
Sono disponibili le versioni a 64-bit e le versioni multiprocessore altamente ottimizzate.
Per richiedere il prezzo di questa soluzione, si compili questo form.