|
|
Caratteristiche Uniche di STATISTICA Data Miner
Il sistema più completo ed efficiente di strumenti
ad uso intuitivo per l'intero processo di data mining - dall'interrogazione dei
database alla generazione dei report finali.
- STATISTICA Data Miner contiene la selezione più completa di
metodi di data mining disponibile sul mercato (ad esempio, la selezione più
completa di tecniche di raggruppamento, architetture di reti neurali, alberi di classificazione/regressione, modellazione
multivariata (incluse le Spline MAR), e molte altre tecniche
predittive; la più grande selezione di procedure grafiche e di visualizzazione
rispetto a qualsiasi prodotto concorrente);
- Una selezione di progetti
(soluzioni) di data mining comprensivi, completi, pronti da eseguire, ed
impostato per la valutazione modelli alternativi (tramite operazioni di
bagging (voting, averaging), boosting, spiegamento,
meta-apprendimento, ecc.), e per la produzione di report riassuntivi in
qualità di presentazione;
- Un'interfaccia utente basata sul copia-e-incolla
estremamente facile da usare, che può essere usata anche dagli utenti meno
esperti, ma che è allo stesso tempo altamente flessibile, personalizzabile, e
fornisce accesso con un clic a tutti gli script sottostanti.
- Potenti
strumenti per l'esplorazione interattiva dei dati (drill-down, generatore di
stratificazione, di ipercubi, ecc.), inclusa la selezione più completa di
strumenti di visualizzazione dei grafici interattivi ed esplorativi
disponibili sul mercato.
- Possibilità di gestire/elaborare simultaneamente più flussi di dati;
-
Ottimizzato per l'elaborazione di insiemi di dati estremamente grandi (incluse
le opzioni per effettuare un pre-screening di anche oltre un milione di
variabili, e/o per estrarre campioni casuali stratificati o semplici record
attraverso le procedure di campionamento casuale DIEHARD-certificate; si veda
Benchmark comparativo di prestazione su grandi insiemi di dati);
- Accesso di lettura (e scrittura) altamente ottimizzato a grandi database,
inclusa la tecnologia IDP (In-Place Database Processing)
che legge i dati direttamente e asincronicamente dai server remoti di database
(attraverso l'elaborazione distribuita se supportata dal server), ed evitando
l'"importazione" dei dati e la creazione di una copia locale;
- Motore di sviluppo flessibile, integrato con l'ambiente di sviluppo
personalizzato, che permette di gestire oggetti (nodi) analitici ottimizzati per
il data mining attraverso l'impiego di script veloci, industrali standard, in
Visual Basic (VB è integrato nel sistema);
- Deployment estremamente veloce ed efficiente attraverso la sintassi
portabile di XML, basata su file PMML (Predictive Models Markup Language) per la
previsione, per la classificazione predittiva, o per il raggruppamento
predittivo di grandi file di dati; i modelli addestrati possono essere condivisi
tra le installazioni desktop e WebSTATISTICA Data Miner (Client-Server)
(si veda sotto);
- Opzioni per la scrittura dei valori previsti, delle
classificazioni, delle probabilità di classificazione, dei residui di previsione,
e così via direttamente all'interno dei database esterni per analisi successive,
selezioni, ecc.; attraverso l'efficiente tecnologia IDP (In-Place Database
Processing) per la lettura e la scrittura di informazioni da/a database esterni,
è possibile analizzare insiemi di dati estremamente grandi (usati per
l'aggiornamento dei valori previsti, delle probabilità di classificazione, ecc.,
all'interno del database);
- Architettura COM aperta, opzioni di automazione
illimitate, e supporto per estensioni personalizzate (attraverso VB
(integrato), Java, o C/C++/C#);
- Opzioni desktop o Client-Server
- L'architettura di elaborazione multi-coda e
distribuita permette una prestazione incomparabile (offerta nella
versione Client-Server) inclusa la tecnologia di elaborazione parallela simile a
quella dei super-computer che scala opzionalmente su più computer server che
possono lavorare in parallelo per la elaborazione di progetti computazionalmente
intensivi.
- Opzioni di abilitazione al Web complete (attraverso WebSTATISTICA,
che offre supporto per tutte le operazioni di data mining, inclusa la
costruzione interattiva dei modelli, attraverso l'utilizzo di un browser
Internet di un computer connesso al Web); Questo sistema enterprise evolutissimo
di analisi/mining permette di gestire i progetti su Web e di lavorare in gruppo
all'interno di uno stesso stabilimento o attraverso i continenti.
STATISTICA Data Miner è un'applicazione realmente unica in termini di
completezza, di potenza, di tecnologia, e di flessibilità delle interfacce
utente disponibili:
 -
Sono disponibili opzioni di scelta entro la più ampia selezione di algoritmi
presente nel mercato (basati sulla tecnologia di STATISTICA) per la
classificazione, previsione, raggruppamento e modellazione.
- Accesso ed
elaborazione di dataset di enormi dimensioni direttamente dai database;
pesanti interrogazioni di database eseguite direttamente su server;
- Produzione di valori previsti, classificazioni, probabilità di
classificazione, ecc., calcolati dai modelli addestrati direttamente su un
database esterno; interazione con database molto grandi attraverso uno o più
modelli di deployment;
- Accesso a grandi file di dati sul proprio computer
Windows locale; dato che le query specializzate a datawarehouse personalizzati
alle volte possono rivelarsi molto costose (dato che richiedono i servizi di
consulenti designati), è certamente più economico scaricare database anche
enormi sulla propria macchina locale; tali file dati possono quindi essere
elaborati con una velocità incomparabile dalle routine di STATISTICA Data
Miner;
- I modelli di progetto di data mining possono essere scelti da
menu; con solo pochi clic del mouse si possono applicare metodi anche
avanzati, quali tecniche di meta-apprendimento (voting, bagging), su specifici
problemi di analisi.
- Integrazione di metodi e tecnologie diverse nel
progetto di data mining, dalla generazione di carte di controllo della
qualità, ai modelli lineari e non lineari, alle ricerche automatiche avanzate
di architetture di reti neurali.; tutte le procedure di STATISTICA
possono essere selezionate come nodi di progetto di data mining, senza che sia
richiesta alcuna programmazione od un ambiente personalizzato;
- Data mining
grafico/visuale: tutte le impareggiabili ed uniche capacità grafiche di
STATISTICA sono disponibili anche per il data mining; si possono scegliere
centinaia di tipi di grafico per visualizzare i dati dopo la ripulitura, la
stratificazione o il drill-down.
- Interfaccia utente intuitiva e completa
integrazione con le soluzioni vincenti di STATISTICA: come essere
pronti e operativi in pochi minuti.
- Completa integrazione con le applicazioni desktop (STATISTICA) e WEB (WebSTATISTICA)
di StatSoft; esplorazione interattiva, drill down, rappresentazione grafica,
ecc., di tutti i risultati intermedi.
- Organizzazione dei risultati in report,
spreadsheet, grafici, ecc., o pubblicazione degli stessi su Web.
- Accesso
alla esaustiva libreria di procedure analitiche di STATISTICA.
- Aggiornamento automatico delle analisi e dei risultati quando si modificano
i dati.
- Architettura di progetto aperta: possibilità di integrare in maniera
completa i propri algoritmi e metodi proprietari, o anche algoritmi di terze
parti.
- Sistema completamente programmabile e personalizzabile (usando
linguaggi standard quali il Visual Basic integrato, C++, C#, Java, ecc.): si
possono sviluppare sistemi di data mining altamente personalizzati ed
ottimizzati specificatamente per le proprie esigenze.
- Deployment automatico
delle soluzioni in pochi secondi, usando gli strumenti integrati, o
generazione di codice automatica per il deployment (per es., in C++) per i
propri programmi
Si prema qui per maggiori informazioni sulle
caratteristiche uniche di STATISTICA Data Miner
Data Miner Recipe (DMR) - Un'interfaccia utente in stile Guida
Processo passo-per-passo in stile di ricettario, con la funzione di accompagnare l'utente attraverso l'intero processo di data mining:
- Connessione ai dati
- Modifica/preparazione dei dati
- Esecuzione dei calcoli
- Controllo dei risultati
- Salvataggio/Deployment
- File di progetto possono essere creati e salvati in qualsiasi fase del processo; i Progetti di Data Miner Recipe possono inoltre essere sottoposti automaticamente a deployment all'interno dell'ambiente di STATISTICA Enterprise

Un trend generale vede nel campo del data mining un crescente interesse nei confronti di soluzioni basate su semplici processi analitici, piuttusto che nei confronti dell'applicazione di strumenti analitici più complessi. L'approccio con STATISTICA Data Miner Recipe (SDMR) prevede l'utilizzo di un'interfaccia grafica intuitiva che consenta anche agli utenti meno esperti di eseguire processi analitici passo-per-passo. Attraverso finestre di dialogo intuitive, sarà possibile eseguire diverse operazioni di data mining quali la regressione, la classificazione, e l'analisi dei gruppi. Altre operazioni possono essere costruite rapidamente in forma di applicazioni personalizzate. Le "ricette" (recipe) complete potranno essere salvate e sottoposte a deployment in forma di file di progetto allo scopo di analizzare nuovi dati.
SDMR copre l'intera gamma di passaggi del processo di data mining - dall'interrogazione di database esterni allo sviluppo di un deployment finale delle soluzioni - e, in generale, consiste dei seguenti passaggi.
1. Identifica i dati sulla base dei quali apprendere
- Si connette ai file dati di STATISTICA; IDP o spreadsheet
2. Pulisce i dati e rimuove i predittori ridondanti
- Metodi flessibili ed efficaci per il campionamento dei dati (semplice, stratificato, sistematico, ecc.)
- Modi più flessibili d'identificare e ricodifica i dati mancanti
- Identificazione degli outlier
- Trasformazione dei dati prima dell'esecuzione degli step successivi
- Identificazione ed eliminazione dei predittori ridondanti
3. Identifica importanti predittori su un'ampia gamma di predittori fortemente legati alla variabile variabile dipendente (target) d'interesse
- Selezione delle caratteristiche su insiemi di dati molto grandi (ad es., migliaia di variabili)
- Individuazione d'importanti interazioni tra predittori attraverso l'uso di metodi ad alberi
4. Genera una gamma di modelli eliggibili
- Sfrutta la selezione completa di tecniche di ultima generazione per il data mining predittivo disponibili in SDMR
- Carica su WebSTATISTICA operazioni computazionalmente intensive (opzionale), liberando sul proprio computer locale risorse utili
5. Esegue una valutazione competitiva dei modelli per identificare il modello migliore rispetto alla performance, e alla complessità
6. Esegue il deployment del modello per l'analisi di nuovi dati attraverso l'efficientissimo motore integrato di deployment
Con pochi clic, il programma accompagnerà l'utente lungo tutto il processo analitico - dalla definizione dei dati di input e dall'analisi del problema, attraverso la pulitura e la preparazione dei dati, e attraverso la costruzione dei modelli, fino alla selezione del modello finale e al deployment.

Nonostante la maggioranza delle complessità di calcolo nel data mining venga risolta automaticamente in STATISTICA Data Miner Recipe, che consente anche all'utente meno esperto di spostarsi molto rapidamente dalla definizione del problema ad una soluzione, il programma "applicherà e testerà" un grande numero di algoritmi avanzati di data mining e determinerà automaticamente quale approccio risulti più efficace.
Quindi, la metodologia con STATISTICA Data Miner Recipe e l'interfaccia utente consentono di sfruttare la più grande raccolta di algoritmi di data mining in un singolo pacchetto.
Data Miner nell'installazione Client-Server di WebSTATISTICA.
La versione desktop di STATISTICA Data Miner è progettata per l'ambiente
Windows. La versione Client-Server di STATISTICA Data Miner è un
piattaforma indipendente sul lato Client e fornisce un'interfaccia utente basata
sul browser di Internet; il lato Server lavora con tutti i principali sistemi
operativi server Web (come ad esempio UNIX Apache) ed i computer server Wintel.
-
Integrazione incomparabile degli strumenti desktop con quelli del data mining
di WebSTATISTICA; modelli progettati su una piattaforma (desktop o
WebSTATISTICA server), eseguiti su un'altra piattaforma; modelli
addestrati su una piattaforma (desktop o WebSTATISTICA server), e
sviluppati su un'altra piattaforma.
- Elaborazione distribuita e valutazione
multi-coda dei progetti: il programma potrà giovarsi di architetture a più
processori e/o a server multipli, per la valutazione dei modelli attraverso
elaborazioni simultanee (elaborazione multicoda e distribuita); quindi la
capacità delle installazioni WebSTATISTICA Data Miner di giovarsi di
tali architetture consente un'incredibile flessibilità a scalare il sistema in
modo tale da analizzare database anche estramente grandi.
- Completa
flessibilità di WebSTATISTICA: analisi dei dati in modalità a lotti,
ricezione di notifiche via email nel momento in cui i risultati sono pronti;
condivisione dei risultati in cartelle scelte (repository) con altri
stakeholder coinvolti nei progetti di data mining; ecc.
- Integrazione di dati di input, stakeholder, analisti, e utenti dei risultati
dei progetti di data mining in ogni luogo al mondo; WebSTATISTICA
consente di connettersi ai dati presenti su un server (attraverso Internet), di
condividere le analisi con altri professionisti del data mining, e di mettere a
disposizione soluzioni e risultati agli utenti nei luoghi anche più remoti (ad
esempio, ai manager dislocati in piccole zone rurali, ai tecnici situati su
remote piattaforme di perforazione, ai naviganti sulle rotte oceaniche, ecc.);
fintanto che si dispone di un accesso ad Internet, sarà possibile coinvolgere
chiunque nei progetti di data mining;
- Ideale per un data mining di formazione: consente ai partecipanti (studenti)
di sfruttare le opzioni di analisi da casa o dall'ufficio, ovunque vi sia
accesso ad Internet. WebSTATISTICA fornisce a tutti i partecipanti di un
corso di formazione una conoscenza pronta per l'uso dei più avanzati strumenti
di data mining disponibili ad oggi!
Tecnologia Software Avanzata = Interfaccia Utente Efficiente ed Elegante
"Oggetti"
di analisi e nodi di STATISTICA. Nel "cuore" di STATISTICA Data
Miner è presente un insieme di oltre 300 procedure di STATISTICA
fortemente ottimizzate, efficienti, ed estremamente veloci, richiamate da script
Visual Basic (disponibili per l'utente in formato di codice sorgente), usati per
specificare le relazioni tra le procedure (oggetti) e controllare la logica del
progetto (ed il "flusso" dei dati). Questa architettura flessibile e
personalizzabile è quella che supporta le funzionalità complete di tutte le
procedure statistiche nell'ambiente di data mining sotto forma di oggetti.
Questi script (oggetti di analisi) servono da "contenitori" o da collante per la
definizione del flusso di dati all'interno dei progetti, mentre le analisi
numeriche effettive sono eseguite tramite le procedure analitiche estremamente
veloci di STATISTICA. Gli oggetti, che possono essere usati come nodi per
la ripulitura e/o il filtraggio dei dati, e per analizzare i dati, sono
organizzati nel Node Browser.
I nodi disponibili nel node browser (e, quindi, disponibili nel progetto
di data mining) sono:- Nodi per l'input e l'acquisizione dei dati.
Qui si possono creare e archiviare gli script necessari per connettersi a
fonti dati remote (protette) su un server. Ovviamente, si possono anche
analizzare file dati di STATISTICA o porre "punti d'ingresso" per
l'elaborazione in loco di database remoti (si veda IDP),
nel qual caso, comunque, non si dovranno creare nodi (script) speciali.
- Nodi per il filtraggio, la ripulitura, la verifica, la selezione di
caratteristiche ed il sottocampionamento dei dati. Queste opzioni sono
essenziali per il data mining per individuare e correggere informazioni erronee
che possono distorcere le conclusioni finali. Le facilitazioni per il
sottocampionamento sono utili per analizzare data set molto grandi (si veda
Benchmark comparativi sulle prestazioni relative all'utilizzo di grandi insiemi
di dati), per estrarre campioni casuali per ulteriori analisi. Le opzioni di
selezione delle caratteristiche permettono di selezionare automaticamente
variabili informative (predittori) all'interno, per esempio, di centinaia di
migliaia di possibili predittori (si veda anche Selezione
delle Caratteristiche e Filtraggio delle Variabili).
- Nodi per l'analisi dei dati. Questi nodi contengono le funzionalità
complete di tutte le procedure di analisi e grafiche di STATISTICA; sono
disponibili centinaia di procedure per poter rispondere praticamente a tutte le
esigenze analitiche che possono sorgere nel progetto di data mining.
Creare il progetto di data mining. Questi nodi possono essere
semplicemente connessi nello spazio di lavoro di data mining.
Lo spazio di lavoro di data mining è un ambiente di analisi dei dati
strutturato, estremamente efficiente, dall'uso intuitivo, in cui ci si può
muovere e quindi connettere i dati, le analisi ed i risultati semplicemente
trascinando icone e connettendo queste con frecce. Si possono aprire, modificare
ed eseguire simultaneamente tanti spazi di lavoro di data mining quanti ne
servono, e trascinare nodi (oggetti) tra spazi di lavoro e tra node browser.
L'area dello spazio di lavoro è suddivisa in aree che riservano spazio per:
Acquisizione dati. Questa è la zona in cui si possono specificare le fonti
dati (per es., file dati di STATISTICA, "punti d'ingresso" per
elaborazioni in loco di dati su server remoti, programmi che generano dati per
un uso in modellazioni avanzate).Preparazione, ripulitura, trasformazione
dei dati. I nodi presenti in quest'area accetteranno come input una o più
fonti dati e creeranno una o più fonti dati (filtrate, ripulite, trasformate)
per ulteriori analisi "in cascata".Analisi, modellazione,
classificazione, previsione dei dati. I nodi presenti in quest'area
eseguiranno le analisi numeriche.Report. Quest'area mostrerà i
risultati delle analisi.
.
Creare un progetto di Data Mining è facile: si selezioni dapprima una fonte
dati; poi si applichino le trasformazioni, le preparazioni e i filtraggi dei
dati, se necessari; quindi si connettano le analisi desiderate ai dati ripuliti
e, per ultimo, si visualizzino e/o pubblichino i risultati. Molti utenti di
STATISTICA Data Miner non avranno mai bisogno di "andare oltre" questa
semplice interfaccia interattiva in stile "punta e clicca".
Specificare
modelli complessi. La semplice interfaccia utente -- basata su selezioni "in
punta di mouse" da menu e browser -- permetterà di applicare metodi anche molto
avanzati. Si possono selezionare diversi "modelli" di progetto esaustivi e
flessibili che permettono l'esecuzione di operazioni comuni di data mining. Per
esempio, per trovare un buon modello per prevedere il rischio di credito di
nuovi clienti sulla base di dati storici che includono diversi predittori
potenzialmente utili, si dovrà semplicemente selezionare il modello per il
progetto Modelli di Regressione Esaustivi Avanzati.
Tutto ciò che si dovrà fare in seguito sarà connettere i dati storici,
specificare le variabili di interesse, e "addestrare" il progetto; quindi, in
pochi secondi (selezionare il file dati, selezionare le variabili, selezionare
lo strumento freccia per connettere i dati), il programma automaticamente:
-
Creerà due campioni per l'addestramento e la validazione incrociata, per
evitare il sovra-adattamento;
- Applicherà la regressione lineare per il miglior sottoinsieme, gli algoritmi
ad albero di regressione standard, il CHAID ed il CHAID estaustivo, un
percettrone multistrato a 3 strati, ed una funzione a base radiale per trovare
un buon modello atto a prevedere il rischio di credito;
- Combinerà tutte le
risposte in un "meta-learner" che individuerà il migliore modello o combinerà
le previsioni provenienti da più modelli.
Dopo aver applicato queste tecniche avanzate per la modellazione di relazioni
lineari, non lineari o anche caotiche, si è pronti per il deployment: si
connetta semplicemente la fonte dati per i nuovi dati (nuovi clienti) al nodo
Compute Best Prediction From All Models, ed il programma applicherà
automaticamente i modelli già pienamente testati per derivare la miglior
previsione possibile.
Velocità. I nodi di analisi (oggetti) contengono le funzionalità
complete di STATISTICA, incapsulate in chiamate fatte dagli script di
nodo scritti in STATISTICA Visual Basic standard. Tuttavia, le analisi
effettive sono eseguite tramite i moduli altamente ottimizzati delle analisi di
STATISTICA, raffinati da circa due decadi di esperienza, per ottenere la
più elevata velocità, efficienza e accuratezza (si vedano anche i
Benchmark di accuratezza).
Grandi insiemi di dati. STATISTICA Data Miner sfrutta un numero
di tecnologie specificamente sviluppate per ottimizzare l'elaborazione di grandi
insiemi di dati, ed è progettato per manipolare i problemi computazionali di più
grande scala e per elaborare database molto grandi. Ad esempio, possono essere
elaborati e filtrati automaticamente insiemi di dati con oltre un milione di
variabili (attraverso un'ampia gamma di metodi) per la ricerca dei migliori
predittori o delle variabili più rilevanti (si veda anche
Selezione delle Caratteristiche e Filtraggio delle Variabili e
Benchmark comparativi sulle prestazioni relative all'utilizzo di grandi insiemi
di dati).
Personalizzare le analisi. Le operazioni di analisi o di
ripulitura/filtraggio dei dati implementare dai nodi di STATISTICA Data Miner
possono essere ulteriormente personalizzate facendo semplicemente un doppio clic
sulle rispettive icone: ogni icona contiene le opzioni per personalizzare in
maniera completa le rispettive operazioni; per esempio, facendo clic su un nodo
per reti neurali si richiamerà una finestra di dialogo (comprensiva di aiuti)
per la personalizzazione della analisi specifica (per modificare il numero di
iterazioni, il numero di strati nella rete, il dettaglio dei risultati
riportati, ecc.).
Salvare il progetto. L'intero progetto (spazio di lavoro) può essere
salvato, insieme a tutte le relative personalizzazioni, le fonti dati
intermedie, i commenti, ecc. Le analisi di routine (per es., per l'aggiornamento
periodico dell'addestramento di un insieme complesso di modelli per la
classificazione basata su voting, fatto a partire da diversi metodi di
classificazione) possono essere salvate ed in seguito applicate facendo clic su
un solo pulsante ("aggiorna").
Nota Tecnica: Script di Nodo di STATISTICA Data Miner.
Le routine computazionali di STATISTICA Data Miner sono estremamente
veloci e altamente ottimizzate. Per esempio, nell'ambiente Client-Server di
WebSTATISTICA, il programma si gioverà automaticamente delle architetture a
più processori e/o multi-server (con appropriato supporto hardware), per la
valutazione dei modelli attraverso più elaborazioni simultanee (multi-coda,
elaborazione distribuita). In più, le routine altamente specializzate per
l'elaborazione dei dati supereranno gli altri software in un confronto
testa-a-testa (si vedano i benchmark disponibili in www.statsoft.com). Inoltre,
per gli utenti avanzati sarà molto semplice personalizzare il sistema; ogni nodo
di STATISTICA Data Miner consiste di uno script standardizzato in
STATISTICA Visual Basic (che richiama le rispettive procedure di
STATISTICA), con accesso alle funzioni aggiuntive per la fornitura di
un'interfaccia utente ad uso di analisi personalizzate successive. Può anche non
essere mai necessaria la modifica di tali script; tuttavia, se il proprio
dipartimento IT o eventuali consulenti desiderano inserire algoritmi proprietari
in STATISTICA Data Miner, questo è comunque possibile. Dentro lo script
può essere eseguito un qualsiasi numero di operazioni numeriche altamente
personalizzate, al fine di modificare praticamente tutti gli aspetti dei dati, o
per applicare una delle migliaia di funzioni analitiche disponibili in forma di
semplice richiamo di funzione che può essere effettuato da C++ o da
STATISTICA Visual Basic. Questa architettura generale aperta di
STATISTICA Data Miner fornisce numerosi vantaggi unici (illustrati anche
nella sezione Caratteristiche Uniche).
- Ogni nodo può gestire più fonti dati in input e più fonti dati in
output; si possono applicare operazioni identiche su più fonti dati usando un
solo nodo.
- Una fonte dati può essere anche una mappatura su un database che
non dovrà necessariamente risiedere (fisicamente) nella macchina che esegue
STATISTICA Data Miner, e neanche dovrà necessariamente essere copiata in
questa; questo fatto è estremamente importante, quando si devono elaborare
grossi data set, come spesso accade nel data mining (si veda
tecnologia IDP).
- Si possono eseguire operazioni entro e tra fonti dati; per esempio, si
possono unire dati provenienti da diversi database remoti in un singolo file
dati, così da permettere ulteriori elaborazioni con i nodi analitici di
STATISTICA Data Miner.
- Visual Basic stesso è un semplice linguaggio
orientato ad oggetti, disponibile per la gran parte di programmi applicativi
standard; per esso si può trovare una dotazione virtualmente illimitata di
risorse di programmazione, programmatori con esperienza e di talento, nonché
applicazioni di terze parti che possono essere integrate con STATISTICA
Data Miner. Allo stesso modo, STATISTICA Data Miner può essere
integrato con altre applicazioni, per esempio, per inviare automaticamente i
risultati sul WEB o via email, o ancora per esportare i risultati in altre
applicazioni. Inoltre, è disponibile una versione totalmente basata su Web di
STATISTICA Data Miner, potenziata tramite WebSTATISTICA Server.
-
Le funzionalità
di registrazione delle macro di STATISTICA registreranno
automaticamente le analisi interattive; queste registrazioni possono essere
facilmente convertite in script per nodi personalizzati.
- Ove applicabili,
le analisi di STATISTICA contengono opzioni per generare codice in
STATISTICA Visual Basic per il deployment (cioè, la "distribuzione", per
es., di reti neurali addestrate); questi script possono essere usati
direttamente in script per nodi di deployment personalizzati.
Distribuire (deployment) le soluzioni. I risultati delle analisi
effettuate tramite STATISTICA Data Miner possono essere distribuiti
(applicati a nuovi dati o all'interno di altri sistemi di elaborazione dati
automatizzati) in diverse maniere.- Deployment automatico di modelli.
I modelli di data mining con deployment per tipi standard di analisi possono
essere scelti come opzioni dei menu pull-down: si selezioni un modello, si
connettano i dati di addestramento per stimare i modelli, e si sarà già in
grado di applicare la migliore soluzione (soluzione media, soluzione voted,
ecc.) a nuovi dati; l'utente finale dovrà semplicemente connettere nuovi dati
al nodo di deployment per calcolare previsioni, classificazioni, ecc.
-
Deployment Rapido dei modelli predittivi basato sul PMML. Le opzioni del
Deployment Rapido dei Modelli Predittivi permettono di elaborare i
metodi più veloci e più efficienti per il calcolo delle previsioni a partire
da modelli completamente addestrati; infatti, è molto difficile "battere" la
prestazione (in termini di velocità dei calcoli) di tale strumento, anche se
si ha intenzione di scrivere un proprio codice C++ compilato, basato sul
codice di deployment (in C, C++, od in C#) generato dai modelli rispettivi. Le
opzioni del Deployment Rapido dei Modelli Predittivi consentono di
caricare uno o più file in PMML con informazioni di deployment, e di calcolare
molto velocemente previsioni (in un singolo passo attraverso i dati) per
grandi numeri di osservazioni (per uno o più modelli). I file in PMML (Predictive
Models Markup Language) possono essere generati da praticamente tutte le
procedure analitiche per il data mining predittivo (così come le opzioni di
Analisi dei Gruppi EM Generalizzata e k-Means). PMML è un insieme di
convenzioni di sintassi standard industriali basate su XML (Extensible Markup
Language) che sono particolarmente adatte alla condivisione d'informazioni di
deployment in un'architettura Client Server (ad esempio, attraverso
WebSTATISTICA).
- Opzioni del generatore di codice C, C++, C#, Visual Basic. Le opzioni
del Generatore di Codice sono disponibili anche per problemi di regressione
(previsione di variabili continue), di classificazione (previsione di variabili
categoriali), e di diversi tipi di analisi dei gruppi; è possibile, ad esempio,
salvare del codice in C++ o del codice in Visual Basic che implementi la
previsione a partire da algoritmi ad alberi di classificazione, da analisi di
funzioni discriminanti lineari, da modelli lineari generalizzati, da reti
neurali, da Spline MAR (spline di regressione multivariate), da soluzioni di
raggruppamento k-means o EM (apprendimento non supervisionato), ecc. Il codice
generato da queste opzioni possono essere velocemente integrate nei programmi
personalizzati per il deployment. Per esempio, il codice in Visual Basic
generato da moduli di analisi di STATISTICA s'integrerà in maniera
incomparabile nell'architettura di STATISTICA Data Miner; basati sul
codice generato in Visual Basic da STATISTICA, i nodi di deployment
personalizzati possono essere programmati in alcuni minuti, anche da
programmatori privi di esperienza.
Utilizzo di STATISTICA Data Miner con Insiemi di Dati Estremamente
Grandi
L'intera famiglia di prodotti di STATISTICA e STATISTICA Data Miner
in particolare sono specificamente ottimizzati per l'elaborazione efficiente di
insiemi di dati estremamente grandi (si veda
Bechmark comparativo sulle prestazioni relative all'utilizzo di grandi insiemi
di dati), con milioni di osservazioni (record) e milioni di variabili.
Elaborazione di database più grandi dei sistemi di immagazzinamento locali.
STATISTICA Data Miner (e opzionalmente tutti gli altri prodotti di
STATISTICA) possono elaborare in loco i dati di database (remoti) attraverso
la sua evolutissima tecnologia Elaborazione in loco dei
Database (IDP), che combina le risorse elaborative del server di database ed
il computer locale per (a) eseguire le query (attraverso la CPU del database
server) quando simultaneamente (b) vengono elaborati record "al volo" sulla
macchina locale (attraverso la CPU (client) del computer locale). In questo
modo, potranno essere elaborati database più grandi rispetto a quello che
potrebbe essere fatto sulla macchina locale, e può essere ottenuto un maggior
guadagno in termini di prestazione risparmiando del tempo che normalmente
verrebbe impiegato per importare, come prima cosa, i dati sulla macchina locale
e quindi per elaborarli localmente. In pratica sono supportati tutti i più
comuni formati di database, e sono forniti gli strumenti per la definizione
delle connessioni ai database (query).
Elaborazione di database contenente un numero estremamente grande di
variabili (campi): Le funzionalità di selezione delle
caratteristiche e di screening delle variabili. Quando il numero di
variabili nel file dati di input è estremamente grande, STATISTICA Data Miner
può selezionare automaticamente sottoinsiemi di variabili tra anche oltre un
milione di variabili (candidate) per il data mining predittivo. L'algoritmo
estremamente veloce ed efficiente selezionerà le variabili (caratteristiche) che
rappresenteranno verosimilmente i predittori più rilevanti presenti nell'insieme
di dati corrente, senza introdurre distorsioni nella successiva costruzione del
modello per il data mining predittivo.
Elaborazione di file dati con numeri estremamente grandi di casi (record):
Campionamento casuale flessibile ed efficiente. I prodotti di STATISTICA
(incluso STATISTICA Data Miner) possono elaborare file dati con numeri
praticamente illimitati di casi (record), e le procedure di accesso ai dati di
STATISTICA sono altamente ottimizzate. Tuttavia, l'inclusione di tutti i
record nelle analisi quando il numero di record è estremamente grande è
un'operazione (a) generalmente inutile, (b) dispensiosa in termini di tempo, e
(c) spesso impraticabile o impossibile (in casi estremi potrebbero essere
necessarie ore soltanto per leggere tutti i record). Per velocizzare il processo
analitico, STATISTICA Data Miner include strumenti sofisticati per
l'estrazione di campioni casuali o stratificati casuali da grandi insiemi di
dati (database). L'utente può estrarre velocemente campioni casuali semplici o
sistematici di dimensioni appropriate, con o senza reinserimento, da grandi
insiemi di dati (ad esempio, con molti milioni di record) per ulteriori analisi
con sofisticati strumenti di modellazione che potrebbero richiedere molti passi
(ad esempio, le reti neurali, i modelli lineari generalizzati, ecc.). Il
sotto-campionamento casuale è basato sul generatore di numeri casuali validato
di STATISTICA. Si noti che STATISTICA è uno dei soli prodotti
software disponibili ad aver passato i test più avanzati e più conosciuti per la
randomizzazione (l'insieme di test DIEHARD).
Elaborazione distribuita e valutazione multi-coda dei progetti
nell'ambiente Client-Server. L'installazione Client-Server di
WebSTATISTICA di STATISTICA Data Miner offre vantaggi aggiuntivi per
l'elaborazione di dataset molto grandi. Il programma si gioverà automaticamente
di architetture multi-processore e/o a server multiplo (con adeguato supporto
hardware) per la valutazione dei modelli attraverso processi multipli simultanei
(elaborazioni multi-coda, distribuiti). Di qui, considerando i costi decrescenti
di hardware server avanzati (con processori multipli, o per installazioni
multi-server), la possibilità delle installazioni di WebSTATISTICA Data Miner
di giovarsi di tali tipi di architetture forniscono un'incredibilità
flessibilità nello scaling del sistema al fine di un mining su database anche
estremamente grandi.
Strumenti di Data Mining
STATISTICA Data Miner offre la selezione più esauriente di tecniche
statistiche, esplorative e di rappresentazione dei dati disponibili nel mercato,
incluse anche procedure "di punta" estremamente efficienti per l'apprendimento e
la classificazione, basate su reti neurali. Inoltre, le funzionalità analitiche
complete di STATISTICA sono disponibili per il data mining, incapsulate
in oltre 300 nodi che possono essere selezionati da un Node Browser
strutturato e personalizzabile, e che possono essere trascinati nello spazio di
lavoro di data mining.
Gli strumenti specializzati per il data mining sono ottimizzati per ottenere la
massima velocità ed efficienza, e possono essere classificati nelle cinque
"aree" generali che seguono (ognuna di esse comprende un insieme di moduli di
STATISTICA, alcuni dei quali offerti solo nell'ambiente di STATISTICA
Data Miner):
Generatore Generale di Stratificazioni/Ipercubi e Drill-Down. È
disponibile un gran numero di nodi di analisi per la creazione di grafici
esplorativi, per calcolare statistiche descrittive, tabulazioni, ecc. Questi
nodi possono essere connessi a fonti di dati di input, oppure a tutti i
risultati intermedi. È disponibile un modulo applicativo specializzato di
STATISTICA (STATISTICA Drill-Down Explorer)
per esplorare interattivamente i dati "scavando" nelle variabili selezionate, e
nelle categorie o negli intervalli di valori presenti in queste variabili. Per
esempio, è possibile analizzare la variabile Sesso, per visualizzare la
distribuzione di una variabile Reddito per le sole donne; in seguito si potrà
analizzare uno specifico gruppo di reddito, per esplorare (per es., creare
riassunti grafici per) variabili selezionate, per le donne, nel solo gruppo di
reddito selezionato. Una caratteristica unica di STATISTICA Drill-Down
Explorer è la possibilità di selezionare e deselezionare variabili e
categorie su cui eseguire il drill-down in un ordine qualunque; così, l'utente
potrà in seguito deselezionare la variabile Sesso e visualizzare i grafici e le
statistiche selezionati per il gruppo di Reddito selezionato, ma per uomini e
donne insieme. Un'altra caratteristica unica di Drill-Down Explorer è la varietà
di categorizzazioni ("stratificazioni") offerte. Lo STATISTICA Drill-Down
Explorer offre una tremenda flessibilità per "stratificare e generare
ipercubi" sui dati. Lo STATISTICA Drill-Down Explorer può essere
applicato a dati grezzi, connessioni su database per elaborazioni in loco di
dati posti su database remoti, o su qualunque risultato intermedio calcolato in
un progetto di STATISTICA Data Miner. (È anche disponibile
un'applicazione OLAP totalmente integrata (come modulo aggiuntivo per
installazioni enterprise); si contatti StatSoft per avere dettagli.)
Classificatore Generale. STATISTICA Data Miner offre la più ampia
selezione di strumenti per eseguire tecniche di classificazione di data mining
(e per costruire i relativi modelli distribuibili) disponibile nel mercato, che
include i
modelli lineari generalizzati (per risposte
binomiali e multinomiali), gli alberi
di classificazione, modellazione ad alberi di
classificazione e di regressione generali (GTrees),
modelli CHAID generali, tecniche
di analisi dei gruppi di raggruppamento ad alberi così come i metodi di
raggruppamento k-means ed EM con opzioni di validazione incrociata per la
determinazione automatica del miglior numero di campioni), ed i
modelli di analisi discriminante generale (includenti la selezione dei
predittori a miglior sottoinsieme). Inoltre, in STATISTICA Data Miner
sono disponibili i numerosi classificatori avanzati basati su rete neurale
disponibili in Reti Neurali di STATISTICA e
questi possono essere usati in congiunzione o in competizione con altre tecniche
di classificazione.
- Deployment (distribuzione). Ove applicabili, il programma offre
opzioni per generare codice C, C++ o STATISTICA Visual Basic per la
distribuzione delle soluzioni finali nei propri programmi personalizzati; i
modelli sono anche disponibili automaticamente per il deployment dopo
l'addestramento, cosicché tutto ciò che si dovrà fare sarà connettere nuovi
dati al nodo speciale di deployment, per calcolare le classificazioni
previste.
Modellatore ed Esploratore Multivariato Generale. STATISTICA Data
Miner offre la più ampia selezione di strumenti per costruire modelli di
data mining distribuibili, basati su tecniche lineari, non lineari o di rete
neurale, nonché strumenti per esplorare i dati; l'utente potrà anche costruire
modelli predittivi sulla base di tecniche multivariate generali. Riassumendo,
STATISTICA offre tutto il campionario di tecniche, dai modelli lineari
e i modelli di regressione non lineari, i
modelli lineari generalizzati avanzati e i modelli
generalizzati additivi, ai metodi di rete neurale avanzati. STATISTICA
Data Miner include anche tecniche che usualmente non si trovano nei software
di data mining, quali i metodi dei minimi quadrati
parziali (per la riduzione del numero delle variabili), l'analisi
della sopravvivenza (per analizzare dati contenenti osservazioni censurate;
per es. per dati di ricerca medica e dati provenienti da studi nel campo
industriale sull'affidabilità ed il controllo della qualità), le
tecniche di modellazione di equazioni strutturali (per costruire e valutare
modelli lineari confermativi), l'analisi
delle corrispondenze (per analizzare la struttura di tabelle complesse), l'analisi
fattoriale e lo scaling multidimensionale
(per esplorare la struttura su un gran numero di variabili), e molto altro.
???????J???d?d??4?????????????????????????????????????????????????4?????????????????????????????????????????4?????????????????????†?????????????????????????????????•?????•????‰???????????????†?d??†††?????????????????????????????????†††††††††????????????????aul>li>Deployment
(distribuzione). Ove applicabili, il programma offre opzioni per generare
codice C, C++ o STATISTICA Visual Basic per la distribuzione delle
soluzioni finali nei propri programmi personalizzati; i modelli sono anche
disponibili automaticamente per il deployment dopo l'addestramento, cosicché
tutto ciò che si dovrà fare sarà connettere nuovi dati al nodo speciale di
deployment, per calcolare i valori previsti.
Previsore Generale. STATISTICA Data Miner include un'ampia
selezione di tecniche di previsione tradizionali (cioè, che non si basano su
reti neurali) (incluso l'ARIMA, il
lisciamento esponenziale con componenti stagionali, la decomposizione
spettrale di Fourier, la decomposizione
stagionale, l'analisi di regressione e a ritardi
polinomiali, ecc.), nonché metodi basati su reti neurali per dati di serie
storiche.
- Deployment (distribuzione). Le previsioni possono essere
calcolate automaticamente a partire da più modelli presenti nel progetto di
data mining, e queste possono essere tracciate in un singolo grafico per una
valutazione comparativa. Per esempio, è possibile calcolare e confrontare le
previsioni provenienti da più modelli ARIMA, da metodi differenti di
lisciamento esponenziale stagionale e non stagionale, e dalle migliori
architetture di reti neurali per serie storiche (dopo aver ricercato entro
oltre 100 architetture differenti).
Esploratore di Reti Neurali Generale. Questo strumento contiene la
più ampia selezione disponibile di metodi per reti neurali disponibili nel
mercato. Questo potente componente di STATISTICA Data Miner offre
strumenti per approcciare praticamente qualunque problema di data mining
(inclusa la classificazione, l'individuazione di strutture nascoste e una
potente previsione). Una delle caratteristiche uniche dell'esploratore di reti
neurali è la selezione di strumenti intelligenti di risoluzione dei problemi e
di wizard automatici che utilizzano i metodi dell'Intelligenza Artificiale per
aiutare nella risoluzione dei problemi più impegnativi coinvolti nell'analisi
avanzata di reti neurali (come la selezione della migliore architettura di rete
neurale e del miglior sottoinsieme di variabili). L'esploratore offre la più
ampia selezione di architetture e procedure di punta per le reti neurali nonché
algoritmi estremamente ottimizzati che includono: Multilayer perceptrons, reti
radial basis function, reti neurali probabilistiche, reti neurali di regressione
generalizzata, self-organizing feature maps, modelli lineari, reti a componenti
principali e reti di cluster. Si possono anche analizzare insiemi di reti di
tutte queste architetture. I metodi di stima includono la back propagation,
conjugate gradient decent, quasi-Newton, Levenberg-Marquardt, quick propagation,
delta-bar-delta, LVQ, algoritmi di potatura, ed altro ancora; sono disponibili
opzioni per la validazione incrociata, il bootstrap, il sottocampionamento,
l'analisi di sensibilità, ecc.
- Deployment. Reti Neurali di STATISTICA
include le opzioni del generatore di codice per produrre codice C, C++ e
STATISTICA Visual Basic a partire da una o più reti e/o insiemi di reti
addestrate. Questo codice può essere incorporato rapidamente nei propri
programmi personalizzati di deployment. Inoltre, le reti neurali e gli insiemi
di resti neurali addestrati possono essere salvati per essere applicati in
seguito nel calcolo delle risposte o delle classificazioni previste su nuovi
dati. Si può trascinare un nodo di deployment nello spazio di lavoro del data
miner per eseguire automaticamente previsioni e classificazioni predittive in
base alle reti neurali addestrate; tutti ciò che si deve fare (dopo aver
addestrato le reti neurali che partecipano alla previsione) è connettere al
nodo di deployment i relativi dati.
Modelli di Data Mining Specializzati
Un'ampia porzione funzionalità analitiche usate da STATISTICA Data Miner
è ricavata dai motori di calcolo dei moduli inclusi negli altri prodotti
STATISTICA (si vedano le parti rispettive della sezione dei
Prodotti di STATISTICA per avere informazioni dettagliate su questi
moduli):
- Tecniche di Reti Neurali (la più grande selezione di
architetture disponibili, strumenti di problem solver automatico, tecniche di
selezione delle caratteristiche automatiche).
- Tutti gli Strumenti Grafici di STATISTICA e gli strumenti interattivi
di esplorazione/visualizzazione; Statistiche descrittive, segmentazioni, e
analisi esplorativa dei dati; Tabelle di Frequenza, Tabelle Incrociate, Tabelle
e Tabelle Stub-and-Banner, Analisi di Risposta Multipla; Statistiche Non
Parametriche; Adattamento di Distribuzioni; Tecniche di Analisi della Potenza.
- Modelli Lineari Generali (GLM); Modelli di Regressione Generali (GRM);
Modelli Lineari Generalizzati (GLZ); Modelli ai Minimi Quadrati Parziali
Generali (PLS); Componenti di Varianza e Modello Misto ANOVA/ANCOVA; Analisi di
Sopravvivenza; Stima Non Lineare Generale con Regressione Logit e Probit;
Analisi Log-Lineare delle Tabelle di Frequenza; Analisi/Previsione di Serie
Storiche; SEPATH.
- Tecniche di Analisi dei Gruppi; Analisi Fattoriale; Analisi delle Componenti
Principali e di Classificazione; Analisi della Correlazione Canonica; Analisi
dell'Attendibilità/Item; Alberi di Classificazione; Analisi delle
Corrispondenze; Scaling Multidimensionale; Analisi Discriminante; Modelli per
l'Analisi Discriminante Generale (GDA).
- Carte di Controllo della Qualità, Analisi dei Processi, e procedure di
Pianificazione di Esperimenti (DOE).
Tuttavia, molti modelli includono selezioni di tecniche di data mining altamente
specializzate e di modellazione offerte solo come parte di STATISTICA Data
Miner. Le seguenti sezioni includono informazioni tecniche relative a questi
moduli.
SELEZIONE DELLE CARATTERISTICHE E FILTRAGGIO DELLE VARIABILI. Questo
modulo selezionerà automaticamente sottoinsiemi di variabili per file dati
estremamente ampi o per database connessi per una elaborazione in loco (IDP).
Il modulo può gestire un numero praticamente illimitato di variabili: possono
essere analizzate letteralmente milioni (!) di variabili di input per
selezionare predittori per la regressione o la classificazione. Nello specifico,
il programma include diverse opzioni per selezionare variabili
("caratteristiche") che probabilmente saranno utili o informative in specifiche
analisi successive. Gli algoritmi unici implementati nel modulo Selezione
delle Caratteristiche e Filtraggio delle Variabili selezioneranno le
variabili predittive continue e categoriali che mostreranno presentare una
relazione con le variabili dipendenti continue o categoriali d'interesse,
indipendentemente dal fatto che la relazione possa essere semplice (per es.,
lineare) o complessa (non lineare, non monotòna). Pertanto, il programma non
"sposterà" la selezione in favore di un particolare tipo di modello utilizzabile
per trovare una migliore regola o equazione finale (o altro), per la previsione
o la classificazione. Sono anche disponibili diverse opzioni per la selezione
delle caratteristiche. Questo modulo è particolarmente utile in congiunzione con
elaborazione in loco di database senza dover copiare o importare i dati di
input nella macchina locale), dove può essere usato per analizzare enormi liste
di variabili di input, selezionare le candidate che con maggiore probabilità
conterranno informazioni rilevanti per le analisi di interesse e, tra queste,
selezionare automaticamente le variabili per effettuare ulteriori analisi con
altri nodi del progetto di data miner. Per esempio, un sottoinsieme di variabili
costruito su una analisi iniziale fatta tramite questo modulo può essere inviato
alle opzioni di selezione delle caratteristiche per Reti Neurali di STATISTICA
tper ulteriori analisi. Queste opzioni permettono a STATISTICA Data Miner
di gestire dataset di dimensioni che spaziano nell'ordine dei giga- o terabyte. (si
veda Benchmark comparativi sulle prestazioni
relative all'utilizzo di grandi dimensioni).

REGOLE DI ASSOCIAZIONE. Questo modulo contiene una
implementazione completa del cosiddetto algoritmo per individuare a-priori
("effettuare il mining per") regole di associazione, quali per esempio, "i
clienti che ordinano il prodotto A, spesso acquistano anche il prodotto B o C" o
"gli impiegati che pensano cose positive sull'iniziativa X, spesso concordano
anche con la questione Y e sono felici nella situazione Z" (si veda Agrawal and
Swami, 1993; Agrawal and Srikant, 1994; Han and Lakshmanan, 2001; di veda anche
Witten and Frank, 2000). Il modulo STATISTICA Regole di Associazione
permette di elaborare rapidamente enormi data set per la ricerca di associazioni
(relazioni), sulla base di valori "soglia" predefiniti per la ricerca. Nello
specifico, il programma individuerà le relazioni o le associazioni tra valori
specifici di variabili categoriali in grandi dataset. Questa è una operazione
comune in molti progetti di data mining applicati a database contenenti
registrazioni delle transazioni dei clienti (per es., gli oggetti acquistati da
ogni cliente), ed anche nell'area del text mining.
Come per tutti i moduli di STATISTICA, i dati presenti in basi di dati
esterne possono essere elaborati "in loco" dal modulo STATISTICA Regole di
Associazione (si veda la tecnologia IDP), il
programma è quindi preparato per analizzare e gestire efficientemente compiti di
analisi estremamente ampi.
I
risultati possono essere visualizzati in tabelle, ed anche in grafici unici 2D e
3D, in cui le associazioni forti sono evidenziate per mezzo di linee spesse che
connettono i rispettivi elementi.
ESPLORATORE
A DRILL-DOWN INTERATTIVO. Un primo passo in molti progetti di data
mining è l'esplorazione interattiva dei dati, per ottenere una prima
"impressione" sui tipi di variabili coinvolte nell'analisi e sulle loro
possibili relazioni. Il proposito dell'Esploratore a Drill-Down Interattivo è
quello di fornire uno strumento combinato per l'esplorazione grafica, l'analisi
dei dati, e la tabulazione che permetteranno di visualizzare le distribuzioni
delle variabili nelle analisi; le loro relazioni con le altre variabili, e di
identificare le osservazioni reali appartenenti agli specifici sottogruppi di
dati.

Come lavora l'Esploratore a Drill-Down. Nel contesto del data
mining il termine "drill-down" descrive molto bene l'operazione alla base di
questo processo analitico: Il programma permette di selezionare le osservazioni
a partire da insiemi di dati più grandi attraverso la selezione di sottogruppi
basati su specifici valori o intervalli di valori di particolari variabili
d'interesse (come ad esempio, il Sesso e gli Acquisti Medi
dell'esempio precedente); in un certo senso è possibile esporre i "livelli più
profondi" o gli "strati" presenti nei dati grazie alla visualizzazione di
sottoinsiemi sempre più piccoli di osservazioni selezionati attraverso
condizioni di selezione sempre più logicamente complesse.
Drilling "up." La natura interattiva dell'Esploratore a Drill Down non
permette solo il drill-down dei dati o dei database (selezione di gruppi di
osservazioni attraverso condizioni di selezione sempre più logicamente
complesse), ma anche il "drill up": In qualsiasi momento, è possibile
selezionare uno dei gruppi di variabili precedentemente specificate (categoria)
e de-selezionarlo dalla lista delle condizioni di drill-down; durante
l'elaborazione dei dati il programma selezionerà quindi quelle osservazioni che
si adattano alle rimanenti condizioni di selezione (dei casi), ed aggiornerà i
risultati di conseguenza.
Applicazioni dell'Esplorazione a Drill-Down Interattiva.
L'esempio mostrato in precedenza è molto semplice, ed espone soltanto la
funzionalità di base del programma. Il reale potere dell'Esploratore a Drill
Down Interattivo di STATISTICA si basa su vari risultati ausiliari
che possono essere aggiornati automaticamente durante l'esplorazione a
drill-down interattiva: è possibile selezionare una lista di variabili da
controllare, e calcolare per i casi selezionati: Statistiche descrittive e
tabelle di frequenza;
Box-and-whiskers riassuntivi le distribuzioni delle variabili continue;
Matrici di scatterplot riassuntivi le relazioni tra le variabili continue;
Tutte le altre analisi statistiche e grafiche disponibili in STATISTICA
estraendo le osservazioni appartenenti al sottoinsieme corrente;
È possibile, ad esempio, rivedere i tipi di acquisti effettuati dai
consumatori con differenti caratteristiche grafiche, studiare l'efficacia di
certi farmaci all'interno di differenti gruppi di trattamento, di età, ecc., o
estrarre i probabili clienti per un nuovo prodotto a partire da un database di
clienti precedenti sulla base di un attento studio dei segmenti apparenti (di
mercato) esposti dall'analisi a drill-down.
Esploratore a Drill-Down Interattivo e
OLAP (On-Line Analytic Processing).
Apparentemente, il funzionamento dell'Esploratore a Drill-Down Interattivo
(esplorazione di tabelle multidimensionali) è molto simile alla funzionalità
offerta dagli strumenti OLAP (come quelli offerti nel modulo OLAP add-on
a STATISTICA Data Miner). Gli strumenti OLAP consentono agli utenti di
interrogare velocemente un database per estrarre le osservazioni e le
informazioni riassuntive relative a quelle osservazioni che si giovano delle
funzionalità Server ottimizzate di OLAP offerte per una specifica piattaforma di
database (come ad esempio, Oracle, o MS SQL Server), e spesso fornendo
significativi vantaggi in termini di prestazione rispetto ai pacchetti basati
sui tradizionali strumenti d'interrogazione. Tuttavia, i principali vantaggi
dell'Esploratore a Drill-Down Interattivo sull'OLAP sono:
(a) la sua stretta integrazione con i flessibili strumenti di categorizzazione e
con l'ambiente esplorativo di STATISTICA (le funzionalità analitiche
fornite dall'Esploratore a Drill Down Interattivo di STATISTICA sono
molto più complete ed anche generali di qualsiasi strumento OLAP, poichè
supporta operazioni flessibili di "drill up", e poichè permette di rivedere
velocemente i grafici di riepilogo personalizzati, le statistiche descrittive
dettagliate, ecc.), e
(b) il fatto che l'Esploratore Drill Down Interattivo di STATISTICA non
sia limitato ad una qualsiasi particolare piattaforma di database e che non
richieda uno specifico Server OLAP (esso può operare, ad esempio, direttamente
sui file dati di STATISTICA). Allo stesso tempo, connettendo
all'applicazione di STATISTICA un database (remoto) per un'elaborazione
in loco, è possibile eseguire efficacemente operazioni di drill down su
qualsiasi sorgente di dati, indipendentemente dal fatto che gli strumenti OLAP
sia disponibili o no sul server.
ANALISI DEI GRUPPI EM E K-MEANS GENERALIZZATI. Il modulo Analisi
dei Gruppi EM (Expectation Maximization) e k-Means Generalizzati è
un'estensione delle tecniche disponibili nelle opzioni generali di Analisi dei
Gruppi di STATISTICA, specificamente progettate per manipolare grandi
insiemi di dati e per consentire un'analisi dei gruppi su variabili continue e/o
categoriali, e per fornire le funzionalità adatte ad un apprendimento (analisi
dei gruppi) supervisionato di variabili continue e/o categoriali, con tutte le
opzioni di deployment per l'analisi dei gruppi predittiva. Sono fornite diverse
opzioni di validazione incrociata (incluse le opzioni di validazione incrociata
v-fold modificata) che sceglierà e valuterà automaticamente la soluzione finale
migliore per il problema di analisi dei gruppi; non sarà necessario specificare
il numero di gruppi prima dell'analisi; il programma utilizzerà piuttosto i
metodi (basati sulla validazione incrociata) automatici per la scelta della
migliore soluzione di raggruppamento (numero di gruppi)! La tecnica avanzata di
analisi dei gruppi EM disponibile in questo modulo è talvolta chiamata analisi
probabilistica dei gruppi o raggruppamento statistico. Il programma raggrupperà
le osservazioni sulla base delle variabili continue e categoriali, assumendo
differenti distribuzioni per le variabili coinvolte nell'analisi (così come
specificate dall'utente). Sono disponibili diverse opzioni per la validazione
incrociata che permettono di scegliere e valutare la migliore soluzione finale
per il problema di raggruppamento. Vengono calcolati riepiloghi e grafici di
output dettagliati (come ad esempio, i grafici delle distribuzioni per l'analisi
dei gruppi EM), e statistiche di classificazione dettagliate per ogni
osservazione. Tali metodi sono ottimizzati per la gestione di insiemi di dati
molto grandi, e sono forniti diversi risultati per facilitare le analisi
successive attraverso l'assegnazione delle osservazioni ai gruppi. Sono anche
incluse opzioni per il deployment delle soluzioni di raggruppamento (in C, C++,
C#, Visual Basic, od in PMML basato sulla sintassi XML) per la classificazione
di nuove osservazioni.
MODELLI ADDITIVI GENERALIZZATI (GAM). Le facilitazioni di STATISTICA
Modelli Additivi Generalizzati sono un'implementazione dei metodi sviluppati
e resi popolari da Hastie and Tibshirani (1990); discussioni aggiuntive
dettagliate su questi metodi si possono trovare anche in Schimek (2000). Il
programma gestirà variabili predittive continue e categoriali. Si noti che
STATISTICA include una selezione esaustiva di metodi per adattare ai dati
modelli non lineari, quale il modulo di
Stima Non Lineare, Modelli Lineari
Generalizzati, Alberi di Classificazione e Regressione
Generali, ecc.
Distribuzioni e funzioni di link. Il programma permette all'utente di
scegliere entro un'ampia varietà di distribuzioni per la variabile dipendente, e
di funzioni di link per gli effetti delle variabili predittive sulla variabile
dipendente:
Distribuzioni Normale, Gamma, e Poisson:
| Link Log: |
f(z) = log(z) |
| Link Inversa: |
f(z) = 1/z |
| Link Identità: |
f(z) = z |
Distribuzione Binomiale:
| Link Logit: |
f(z)=log(z/(1-z)) |
Lisciatore di scatterplot. Il programma usa il lisciatore spline cubico
con gradi di libertà definiti dall'utente per trovare una trasformazione
(funzione) ottima delle variabili predittive.
Statistiche dei risultati. Il programma riporterà un insieme esaustivo di
statistiche dei risultati per aiutare nella valutazione dell'adeguatezza del
modello, dell'adattamento del modello e nell'interpretazione dei risultati;
nello specifico, i risultati includono: la storia delle iterazioni per i calcoli
di adattamento del modello, statistiche riassuntive che includono il valore di
R-quadro complessivo (calcolato a partire dalla statistica di devianza) i gradi
di libertà del modello, e le statistiche osservazionali dettagliate relative
alle risposte previste, ai residui, ed al lisciamento delle variabili
predittive. I grafici dei risultati includono i tracciati delle risposte
osservate vs. le risposte residue, i valori previsti vs. i residui, gli
istogrammi dei valori osservati e dei valori residui, i normal probability plot
dei valori residui, ed i grafici dei residui parziali per ogni predittore,
indicando l'adattamento della spline cubica per la soluzione finale; per
risposte binarie (per es., modelli logit) si possono anche generare i diagrammi
lift.
ALBERI
DI CLASSIFICAZIONE E REGRESSIONE GENERALI (GTrees). Questo modulo è una
implementazione esaustiva dei metodi descritti come C&RT da Breiman, Friedman,
Olshen, and Stone (1984). Tuttavia, il modulo GTrees contiene varie
estensioni ed opzioni che non si trovano nelle implementazioni tipiche di questo
algoritmo, e che sono particolarmente utili per applicazioni di data mining.
Interfaccia utente; specificazione dei "modelli." Oltre alle analisi
standard (come descritte da Breiman, et al.), l'implementazione di questi metodi
in STATISTICA permette di specificare piani in stile ANOVA/ANCOVA con
variabili predittive continue e/o categoriali, nonché le loro interazioni. Sono
fornite tre interfacce utente interattive che permettono di specificare questi
piani; queste sono analoghe ai metodi forniti in GLM (Modelli
Lineari Generali), GLZ (Modelli Lineari
Generalizzati),
GRM (Modelli di Regressione Generali),
GDA (Modelli di Analisi Discriminante Generali),
e PLS
(Modelli ai Minimi Quadrati Parziali Generali), e sono descritte in
dettaglio nelle rispettive sezioni. In breve, i piani in stile ANOVA/ANCOVA per
i predittori possono essere specificati tramite finestre di dialogo, Wizard, o
in sintassi a comandi (del piano); per di più, la sintassi dei comandi è
compatibile tra moduli, cosicché si potranno applicare rapidamente piani
identici ad analisi molto differenti (per es., confrontare la qualità della
classificazione usando GDA vs. GTrees).
Potatura
dell'albero, selezione, validazione. Il programma offre un gran numero di
opzioni per controllare la costruzione degli alberi, la potatura degli alberi, e
la selezione della soluzione a miglior adattamento. Per variabili dipendenti
(criterio) continue, la potatura dell'albero si può basare sulla varianza,
oppure sul metodo di potatura in stile FACT. Per variabili dipendenti (criterio)
categoriali, la potatura dell'albero si può basare sugli errori di
classificazione, sulla varianza o sul metodo in stile FACT. Si può specificare
il numero massimo di nodi per l'albero o il valore di n minimo per nodo. Sono
fornite opzioni per validare il miglior albero di decisione, usando la
validazione incrociata V-fold, oppure applicando l'albero di decisione a nuove
osservazioni di un campione di validazione. Per le variabili dipendenti
(criterio) categoriali, cioè per problemi di classificazione, si possono
scegliere diverse misure per modificare l'algoritmo e per valutare la qualità
dell'albero di classificazione finale: sono fornite opzioni per specificare
probabilità di classificazione a priori e costi di errata classificazione; le
misure di bontà di adattamento includono la misura di Gini, Chi-quadro e
G-quadro.
Dati
mancanti e suddivisioni surrogate. I valori di dato mancante nei predittori
possono essere gestiti permettendo al programma di determinare le suddivisioni
per variabili surrogate, cioè variabili che sono simili alla rispettiva
variabile usata per una suddivisione (nodo) specifica.
Piani in stile ANOVA/ANCOVA. Oltre alla tradizionale analisi in stile C&RT,
è possibile combinare variabili predittive continue e categoriali in piani in
stile ANOVA/ANCOVA ed eseguire l'analisi usando una matrice di disegno per i
predittori. Questa opzione permette di valutare e confrontare modelli complessi
per i predittori, nonché la loro efficacia per la previsione e la
classificazione usando varie tecniche analitiche (per es.,
Modelli Lineari Generali, Modelli Lineari
Generalizzati,
Modelli di Analisi Discriminante Generali, ecc.).
Visualizzatore
albero. Oltre ai semplici grafici ad albero riassuntivi, è possibile
visualizzare gli alberi dei risultati utilizzando intuitivi visualizzatori ad
albero interattivi, che permettono di espandere o collassare i nodi dell'albero,
e di visualizzare rapidamente le informazioni più importanti sul rispettivo nodo
o sulla classificazione dell'albero. Per esempio, si può evidenziare (fare clic
su) un particolare nodo nel pannello del visualizzatore e vedere immediatamente
i tassi di classificazione e di errata classificazione per lo stesso. Il
visualizzatore albero è uno strumento molto efficiente ed intuitivo per
visualizzare strutture ad albero complesse, usando metodi usati comunemente in
applicazioni Windows per visualizzare informazioni strutturate
gerarchicamente. Si possono visualizzare simultaneamente diversi visualizzatori
di alberi, ciascuno contenente l'albero finale o un sottoalbero potato
dall'albero più grande; ponendo fianco a fianco diversi visualizzatori è facile
confrontare strutture ad albero e sottoalberi differenti. Il Visualizzatore
Alberi di STATISTICA è un'importante innovazione che aiuta
nell'interpretazione di alberi di decisione complessi.
Alberi interattivi. Sono offerte anche opzioni per visualizzare gli
alberi interattivamente, usando gli strumenti di brushing grafico di
STATISTICA oppure ponendo grandi grafici ad albero in finestre grafiche
scorribili in cui i grafici grandi possono essere ispezionati "dietro" una
finestra più piccola (scorribile).
Statistiche dei risultati. Il modulo GTrees di STATISTICA
fornisce un numero molto elevato di opzioni di risultati. Sono accessibili
risultati riassuntivi per ogni nodo; sono calcolate statistiche descrittive
relative alla classificazione, ai costi di classificazione, al guadagno, e via
di seguito. Sono anche disponibili sunti grafici unici, che includono gli
istogrammi (per problemi di classificazione) per ogni nodo, grafici riassuntivi
dettagliati per variabili dipendenti continue (per es., normal probability plot,
scatterplot), e grafici delle coordinate parallele per ogni nodo, così da
fornire un sunto efficiente delle distribuzioni delle risposte per grandi
problemi di classificazione. Come in tutte le procedure di STATISTICA,
tutti i risultati numerici possono essere usati come input per altre analisi,
permettendo così un'esplorazione rapida ed un'ulteriore analisi delle
osservazioni classificate in nodi particolari (per es., si potrebbe usare il
modulo GTrees per produrre una classificazione iniziale dei casi, e
quindi usare la selezione a migliore sottoinsieme delle variabili in GDA
per trovare variabili aggiuntive per possano aiutare nella classificazione).
Generatori di codice C, C++, STATISTICA Visual Basic, SQL.
L'informazione contenuta nell'albero finale può essere rapidamente incorporata
nei propri programmi personalizzati o nelle interrogazioni su database tramite
le opzioni (opzionali) di generazione di codice C, C++, STATISTICA Visual
Basic o di query SQL. Il codice STATISTICA Visual Basic verrà generato in
una forma particolarmente adatta per l'inclusione in nodi personalizzati di
STATISTICA Data Miner.
MODELLI CHAID (Chi-square Automatic Interaction Detection) GENERALI. Allo
stesso modo dell'implementazione di Alberi di Classificazione
e di Regressione GTrees (visto sopra) in STATISTICA, il modulo
CHAID Generale fornisce non solo un'implementazione esaustiva della
tecnica originale, ma estende questi metodi all'analisi di piani in stile ANOVA/ANCOVA.
CHAID
Standard. L'analisi CHAID può essere eseguita sia per variabili
dipendenti (criterio) continue che categoriali. Sono disponibili molte opzioni
per controllare la costruzione degli alberi gerarchici: l'utente può controllare
il valore di n minimo per nodo, il numero massimo di nodi, e le probabilità per
suddividere e riunire le categorie; l'utente può anche richiedere una ricerca
esaustiva della migliore soluzione (CHAID Esaustivo); si possono
calcolare statistiche di validazione V-fold per valutare la stabilità della
soluzione finale; per problemi di classificazione, si possono specificare costi
di errata classificazione definiti dall'utente.
Piani in stile ANOVA/ANCOVA. Oltre all'analisi CHAID tradizionale,
è possibile combinare variabili predittive categoriali e continue in piani in
stile ANOVA/ANCOVA ed eseguire l'analisi usando una matrice di disegno per i
predittori. Ciò permette all'utente di valutare e confrontare modelli predittivi
complessi, nonché la loro efficacia nella previsione e nella classificazione
usando varie tecniche analitiche (per es., Modelli Lineari Generali, Modelli
Lineari Generalizzati, Modelli di Analisi Discriminante Generali, Modelli ad
Alberi di Regressione e Classificazione Generali, ecc.). Si veda anche la
descrizione di GLM (Modelli Lineari Generali)
e Alberi di Classificazione e di Regressione (GTrees),
sopra, per avere dettagli.
Visualizzatore
albero. Come per i risultati degli alberi binari usati per riassumere gli
alberi di regressione e classificazione binari (si veda
GTrees), i risultati dell'analisi CHAID possono essere
visualizzati nel Visualizzatore Albero di STATISTICA. Questo unico
visualizzato di alberi fornisce uno strumento molto efficiente e intuitivo per
visualizzare strutture ad albero complesse e per confrontare, fianco a fianco,
diverse soluzioni ad albero (in diversi visualizzatori d'albero), usando metodi
usati comunemente nelle applicazioni Windows per visualizzare
informazioni strutturate gerarchicamente. Il Visualizzatore Alberi di
STATISTICA è un'importante innovazione che aiuta nell'interpretazione di
alberi di decisione complessi. Per avere dettagli aggiuntivi, si veda anche la
descrizione del visualizzatore alberi nel contesto degli
Alberi di Classificazione e di Regressione (GTrees).
Statistiche dei risultati. Il modulo STATISTICA Modelli CHAID Generali
offre un gran numero di opzioni per la visualizzazione dei risultati. Sono
accessibili i risultati riassuntivi per ogni singolo nodo; sono calcolare
statistiche descrittive in relazione alla classificazione, ai costi di
classificazione, e via di seguito. Sono anche disponibili sunti grafici unici,
che includono gli istogrammi (per problemi di classificazione) per ogni nodo,
grafici riassuntivi dettagliati per variabili dipendenti continue (per es.,
normal probability plot, scatterplot), e grafici delle coordinate parallele per
ogni nodo, così da fornire un sunto efficiente delle disposizioni delle risposte
per grandi problemi di classificazione. Come in tutte le procedure di
STATISTICA, tutti i risultati numerici possono essere usati come input per
altre analisi, permettendo così un'esplorazione rapida ed un'ulteriore analisi
delle osservazioni classificate in nodi particolari (per es., si potrebbe usare
il modulo GTrees per produrre una classificazione
iniziale dei casi, e quindi usare la selezione a migliore sottoinsieme delle
variabili in GDA per trovare variabili
aggiuntive per possano aiutare nella classificazione).
ALBERI DI CLASSIFICAZIONE E REGRESSIONE INTERATTIVI. In aggiunta ai
moduli per la costruzione automatica di alberi (come ad esempio, gli Alberi
di Classificazione e di Regressione Generali, i Modelli CHAID
Generali), STATISTICA Data Miner include anche strumenti progettati
per la costruzione di tali alberi interattivi. È possibile scegliere il metodo
(binario) ad Alberi di Classificazione e di Regressione Generali od il metodo
CHAID per la costruzione di alberi (decisionali), che accresce l'albero ad ogni
step o interattivamente (attraverso la scelta della variabile e del criterio di
suddivisione) o automaticamente. Durante la crescita interattiva degli alberi,
si ha il totale controllo su tutti gli aspetti di come selezionare e valutare i
candidati per ogni suddivisione (split), di come categorizzare l'intervallo di
variazione dei valori contenuti nei predittori, ecc. Gli strumenti altamente
interattivi disponibili per questo modulo permettono di crescere e potare gli
alberi all'indietro per valutare rapidamente la qualità dell'albero per la
previsione di classificazione o di regressione e per il calcolo ad ogni stadio
di tutte le statistiche supplementari finalizzate alla totale esplorazione della
natura di ogni soluzione. Tale strumento è estremamente utile per il data mining
predittivo così come per l'analisi esplorativa dei dati (EDA), ed include
l'insieme completo di opzioni per il deployment automatico, per la previsione o
per la classificazione prevista delle nuove osservazioni (si veda anche la
descrizione di tali opzioni nel contesto del CHAID e dei moduli Alberi
di Classificazione e Regressione Generali).
ALBERI BOOSTED. Le ricerche più recenti in ambito statistico e di
algoritmi di apprendimento macchina suggeriscono che per alcuni "problematici"
task di stima e di previsione (classificazione prevista), l'utilizzo in
successione di semplici alberi boosted può produrre previsioni più accurate
rispetto all'applicazione di architetture di reti neurali o di singoli alberi
complessi. STATISTICA Data Miner include un modulo ad Alberi Boosted
per l'applicazione di questa tecnica per prevedere task di data mining. Sono
forniti il controllo totale su tutti gli aspetti della procedura di stima e
riepiloghi dettagliati ad ogni stadio delle procedure di stima in modo che nei
passi successivi il progresso dell'analisi possa essere monitorato e valutato. I
risultati includono le statistiche riassuntive standard per la classificazione e
la regressione prodotte dal modulo Alberi di Classificazione e Regressione
Generali. Sono presenti anche metodi automatici per il deployment della
soluzione finale ad albero boosted per previsioni di classificazione e di
regressione.
SPLINE DI REGRESSIONE ADATTABILI MULTIVARIATE. Il modulo Spline
MAR (Spline di Regressione Adattabili Multivariate) è basato su
un'implementazione completa di questa tecnica, come originariamente proposto da
Friedman (1991; Spline di Regressione Adattabili Multivariate, Annals of
Statistics, 19, 1-141); in STATISTICA Data Miner, le opzioni di Spline
MAR sono state ulteriormente migliorate per risolvere problemi di
regressione e di classificazione, con predittori continui e categoriali.
Il programma, che in termini di sue funzionalità può essere considerato una
gereralizzazione ed una modifica di Alberi di Regressione e Classificazione
Multipli (GC&RT) stepwise, è programmato (ottimizzato) particolarmente per
l'elaborazione di insiemi di dati molto grandi. È disponibile un grande numero
di opzioni di risultati e di diagnostiche estese che consente di valutare
numericamente e graficamente la qualità della soluzione a Spline MAR.
Generatori di codice in C/C++, C#, in STATISTICA Visual Basic, in PMML
basato sulla sintassi XML. L'informazione contenuta nel modello può essere
velocemente incorporata nei propri programmi personalizzati attraverso
l'utilizzo delle opzioni del generatore di codice in C/C++/C#, in STATISTICA
Visual Basic, od in PMML (linguaggio basato sulla sintassi XML).
STATISTICA Visual Basic sarà generato in una forma particolarmente adatta
per essere inclusa in nodi personalizzati per STATISTICA Data Miner. I
file PMML (Predictive Models Markup Language) con informazioni di deployment
possono essere usati con opzioni di Deployment Rapido di Modelli Predittivi
per produrre molto efficacemente previsioni di grandi numeri di casi; i file
PMML sono completamente portabili, e l'informazione di deployment generata
attraverso la versione desktop di STATISTICA Data Miner può essere usata
in WebSTATISTICA Data Miner (cioè, sul lato client delle installazioni
Client-Server), e vice versa.
CALCOLI DELLA BONTA' DI ADATTAMENTO. Il modulo Bontà Adattamento di
STATISTICA produrrà varie statistiche relative alle statistiche
sull'adattamento delle variabili di risposta continue e categoriali (per
problemi di regressione e di classificazione). Questo modulo è specificamente
progettato per applicazioni di data mining da includere nei progetti per la
"valutazione competitiva dei modelli" come uno strumento per la scelta della
soluzione migliore. Come input il programma utilizza i valori previsti o le
classificazioni così come sono state calcolate a partire da un qualsiasi modulo
di STATISTICA per la regressione e la classificazione, e calcola una
grande selezione di statistiche di adattamento così come riepiloghi grafici per
ogni risposta adattata o classificazioni. Le statistiche sulla bontà
d'adattamento per le risposte continue includono la deviazione ai minimi
quadrati (LSD), la deviazione media, l'errore quadratico relativo, l'errore
assoluto relativo, ed il coefficiente di correlazione. Nei problemi di
classificazione (per variabili di risposta categoriali), il programma calcolerà
le statistiche Chi-quadro, G-quadro (chiquadro di massima verosimiglianza), la
perdita quadratica, la perdita d'informazione.
DEPLOYMENT RAPIDO DI MODELLI PREDITTIVI. Il modulo Deployment
Rapido di Modelli Predittivi permette di caricare uno o più file PMML (Predictive
Models Markup Language) con informazioni di deployment, e di produrre molto
velocemente (in un singolo passaggio attraverso i dati) previsioni di grandi
numeri di osservazioni (per uno o più modelli). I file PMML possono essere
generati da praticamente tutti i moduli dedicati al data mining predittivo (così
come le opzioni di Analisi dei Gruppi EM e k-Means Generalizzati). PMML è
un insieme di convenzioni di sintassi industriale standard basato su XML (Extensible
Markup Language), particolarmente adatto a consentire la condivisione di
informazioni di deployment in un'architettura Client-Server (ad esempio, via
WebSTATISTICA).
Le opzioni contenute in Deployment Rapido di Modelli Predittivi
forniscono i metodi più veloci e più efficienti per il calcolo delle previsioni
a partire da modelli totalmente addestrati. Tutti i modelli sono pre-programmati
in forma generica in un programma altamente ottimizzato e compilato; il codice
PMML fornisce soltanto le stime parametriche ecc. per i modelli totalmente
addestrati, e permette al programma Deployment Rapido di Modelli Predittivi
di produrre previsioni o classificazioni previste (o assegnazione dei
gruppi) in un singolo passaggio attraverso i dati.
Infatti, è molto difficile "battere" la prestazione (velocità di calcolo) di
questo strumento, anche se si sta scrivendo un proprio codice compilato in C++,
basato sul codice di deployment generato (in C, C++, od in C#) dai rispettivi
modelli.
Si noti che il modulo Deployment Rapido di Modelli Predittivi calcolerà
automaticamente statistiche descrittive per ogni modello, e se sono disponibili
valori osservati o classificazioni, il programma calcolerà automaticamente gli
indici di bontà d'adattamento per i modelli partecipanti, inclusi i diagrammi
Gains and Lift per uno o più modelli (overlaid lift and gain charts), per
problemi binari o di classificazione multinomiali (multi-categoriali).
Nella versione desktop di STATISTICA Data Miner, tutti i calcoli sono
eseguiti sul computer locale, e le risorse degli altri computer vengono
utilizzate solo nel caso in cui viene stabilita un'Elaborazione
In-Loco di Database (IDP) a database esterni. IDP è una tecnologia che legge
i dati in modo asincrono direttamente dai server di database remoti (attraverso
un'elaborazione distribuita se supportata dal server), e che permette di evitare
l'"importazione" dei dati e la creazione di una copia locale degli insiemi di
dati. Record di dati sono recuperati e spediti al computer di STATISTICA
asincronicamente dalla CPU del server di database, mentre STATISTICA li
elabora simultaneamente attraverso la CPU del computer locale.
L'Architettura Client-Server. Quando si usa una versione Client-Server di
STATISTICA Data Miner, il computer locale guida soltanto l'interfaccia
utente di Data Miner, mentre tutti i calcoli vengono eseguiti sul server.
Un'architettura Client-Server che utilizza l'avanzata tecnologia di elaborazione
multi-coda e distribuita (si veda sotto) e che opzionalmente può essere scalata
su più server operanti in parallelo, offre ovvi vantaggi qualora i propri
progetti di data mining siano grandi (ad esempio, computazionalmente intensivi o
per i quali è necessaria l'elaborazione di insiemi di dati estremamente grandi).
Tecnologia di Elaborazione Distribuita Multicoda.
Sono offerti molti vantaggi dalla specifica implementazione dell'architettura
Client-Server in STATISTICA Data Miner, la quale è basata sulla
tecnologia di WebSTATISTICA. La piattaforma di WebSTATISTICA è
costruita su avanzata tecnologia di elaborazione distribuita e multi-coda per
supportare la gestione ottimale di grandi caricamenti di calcoli. Tale
tecnologia consente una rapida elaborazione di progetti anche molto grandi e
computazionalmente intensivi, sfruttando le CPU multiple presenti su server, o
anche server multipli operanti in parallelo.

In aggiunta, l'architettura di WebSTATISTICA fornisce un'interfaccia
utente indipendente dalla piattaforma e basata sul Web browser, e presenta una
capacità elevatissima e ad alto livello enterprise di gestione dei progetti o
dei gruppi di utenti situati all'interno di uno stesso stabili od in luoghi
diversi al mondo.
Interfaccia Utente di WebSTATISTICA Data Miner. L'implementazione
WebSTATISTICA di STATISTICA Data Miner consente agli utenti di
progettare, modificare, creare progetti di data mining su una macchina client in
un'interfaccia Web browser che è essenzialmente identica a quella disponibili
per l'installazione desktop.
Per questa ragione, il lato client dell'applicazione (il "front end") può essere
lanciato su qualsiasi computer (anche un portatile) sempre che questo sia
connesso ad Internet. Tuttavia, i calcoli reali e le altre operazioni eseguite
sui dati rimarranno sul server (remoto) con i suoi usualmente potenti processori
e le sue potenti risorse d'immagazzinamento (e saranno gestiti attraverso
l'architettura di elaborazione ottimizzata, multicoda e distribuita del sistema
per una prestazione massima).
In definitiva, gli aspetti dell'interfaccia utente di STATISTICA Data Miner
possono essere lanciati da uno o più utenti da qualsiasi computer al mondo
(sempre che questi siano connessi ad Internet, anche con una connessione lenta),
mentre i server eseguono tutti i calcoli e le operazioni sui dati, rafforzando
la sicurezza ed i privilegi d'accesso applicabili ai rispettivi progetti e
classi di utenti, così come progettato dall'amministratore di rete.
|