STATISTICA









 

Si veda anche Caratteristiche Comuni dei STATISTICA Enterprise Systems
Si veda anche Panoramica su STATISTICA Enterprise Systems



Contenuti

Si prema qui per maggiori informazioni sulle tecniche di Data Mining.

Casi di Successi Recenti

Esegui le analisi via Web
Flyer su Data Miner Brochure su Data Miner


Caratteristiche Uniche di STATISTICA Data Miner

Il sistema più completo ed efficiente di strumenti ad uso intuitivo per l'intero processo di data mining - dall'interrogazione dei database alla generazione dei report finali.

  • STATISTICA Data Miner contiene la selezione più completa di metodi di data mining disponibile sul mercato (ad esempio, la selezione più completa di tecniche di raggruppamento, architetture di reti neurali, alberi di classificazione/regressione, modellazione multivariata (incluse le Spline MAR), e molte altre tecniche predittive; la più grande selezione di procedure grafiche e di visualizzazione rispetto a qualsiasi prodotto concorrente);
  • Una selezione di progetti (soluzioni) di data mining comprensivi, completi, pronti da eseguire, ed impostato per la valutazione modelli alternativi (tramite operazioni di bagging (voting, averaging), boosting, spiegamento, meta-apprendimento, ecc.), e per la produzione di report riassuntivi in qualità di presentazione;
  • Un'interfaccia utente basata sul copia-e-incolla estremamente facile da usare, che può essere usata anche dagli utenti meno esperti, ma che è allo stesso tempo altamente flessibile, personalizzabile, e fornisce accesso con un clic a tutti gli script sottostanti.
  • Potenti strumenti per l'esplorazione interattiva dei dati (drill-down, generatore di stratificazione, di ipercubi, ecc.), inclusa la selezione più completa di strumenti di visualizzazione dei grafici interattivi ed esplorativi disponibili sul mercato.
  • Possibilità di gestire/elaborare simultaneamente più flussi di dati;
  • Ottimizzato per l'elaborazione di insiemi di dati estremamente grandi (incluse le opzioni per effettuare un pre-screening di anche oltre un milione di variabili, e/o per estrarre campioni casuali stratificati o semplici record attraverso le procedure di campionamento casuale DIEHARD-certificate; si veda Benchmark comparativo di prestazione su grandi insiemi di dati);
  • Accesso di lettura (e scrittura) altamente ottimizzato a grandi database, inclusa la tecnologia IDP (In-Place Database Processing) che legge i dati direttamente e asincronicamente dai server remoti di database (attraverso l'elaborazione distribuita se supportata dal server), ed evitando l'"importazione" dei dati e la creazione di una copia locale;
  • Motore di sviluppo flessibile, integrato con l'ambiente di sviluppo personalizzato, che permette di gestire oggetti (nodi) analitici ottimizzati per il data mining attraverso l'impiego di script veloci, industrali standard, in Visual Basic (VB è integrato nel sistema);
  • Deployment estremamente veloce ed efficiente attraverso la sintassi portabile di XML, basata su file PMML (Predictive Models Markup Language) per la previsione, per la classificazione predittiva, o per il raggruppamento predittivo di grandi file di dati; i modelli addestrati possono essere condivisi tra le installazioni desktop e WebSTATISTICA Data Miner (Client-Server) (si veda sotto);
  • Opzioni per la scrittura dei valori previsti, delle classificazioni, delle probabilità di classificazione, dei residui di previsione, e così via direttamente all'interno dei database esterni per analisi successive, selezioni, ecc.; attraverso l'efficiente tecnologia IDP (In-Place Database Processing) per la lettura e la scrittura di informazioni da/a database esterni, è possibile analizzare insiemi di dati estremamente grandi (usati per l'aggiornamento dei valori previsti, delle probabilità di classificazione, ecc., all'interno del database);
  • Architettura COM aperta, opzioni di automazione illimitate, e supporto per estensioni personalizzate (attraverso VB (integrato), Java, o C/C++/C#);
  • Opzioni desktop o Client-Server
  • L'architettura di elaborazione multi-coda e distribuita permette una prestazione incomparabile (offerta nella versione Client-Server) inclusa la tecnologia di elaborazione parallela simile a quella dei super-computer che scala opzionalmente su più computer server che possono lavorare in parallelo per la elaborazione di progetti computazionalmente intensivi.
  • Opzioni di abilitazione al Web complete (attraverso WebSTATISTICA, che offre supporto per tutte le operazioni di data mining, inclusa la costruzione interattiva dei modelli, attraverso l'utilizzo di un browser Internet di un computer connesso al Web); Questo sistema enterprise evolutissimo di analisi/mining permette di gestire i progetti su Web e di lavorare in gruppo all'interno di uno stesso stabilimento o attraverso i continenti.

STATISTICA Data Miner è un'applicazione realmente unica in termini di completezza, di potenza, di tecnologia, e di flessibilità delle interfacce utente disponibili:

  • Sono disponibili opzioni di scelta entro la più ampia selezione di algoritmi presente nel mercato (basati sulla tecnologia di STATISTICA) per la classificazione, previsione, raggruppamento e modellazione.
  • Accesso ed elaborazione di dataset di enormi dimensioni direttamente dai database; pesanti interrogazioni di database eseguite direttamente su server;
  • Produzione di valori previsti, classificazioni, probabilità di classificazione, ecc., calcolati dai modelli addestrati direttamente su un database esterno; interazione con database molto grandi attraverso uno o più modelli di deployment;
  • Accesso a grandi file di dati sul proprio computer Windows locale; dato che le query specializzate a datawarehouse personalizzati alle volte possono rivelarsi molto costose (dato che richiedono i servizi di consulenti designati), è certamente più economico scaricare database anche enormi sulla propria macchina locale; tali file dati possono quindi essere elaborati con una velocità incomparabile dalle routine di STATISTICA Data Miner;
  • I modelli di progetto di data mining possono essere scelti da menu; con solo pochi clic del mouse si possono applicare metodi anche avanzati, quali tecniche di meta-apprendimento (voting, bagging), su specifici problemi di analisi.
  • Integrazione di metodi e tecnologie diverse nel progetto di data mining, dalla generazione di carte di controllo della qualità, ai modelli lineari e non lineari, alle ricerche automatiche avanzate di architetture di reti neurali.; tutte le procedure di STATISTICA possono essere selezionate come nodi di progetto di data mining, senza che sia richiesta alcuna programmazione od un ambiente personalizzato;
  • Data mining grafico/visuale: tutte le impareggiabili ed uniche capacità grafiche di STATISTICA sono disponibili anche per il data mining; si possono scegliere centinaia di tipi di grafico per visualizzare i dati dopo la ripulitura, la stratificazione o il drill-down.
  • Interfaccia utente intuitiva e completa integrazione con le soluzioni vincenti di STATISTICA: come essere pronti e operativi in pochi minuti.
  • Completa integrazione con le applicazioni desktop (STATISTICA) e WEB (WebSTATISTICA) di StatSoft; esplorazione interattiva, drill down, rappresentazione grafica, ecc., di tutti i risultati intermedi.
  • Organizzazione dei risultati in report, spreadsheet, grafici, ecc., o pubblicazione degli stessi su Web.
  • Accesso alla esaustiva libreria di procedure analitiche di STATISTICA.
  • Aggiornamento automatico delle analisi e dei risultati quando si modificano i dati.
  • Architettura di progetto aperta: possibilità di integrare in maniera completa i propri algoritmi e metodi proprietari, o anche algoritmi di terze parti.
  • Sistema completamente programmabile e personalizzabile (usando linguaggi standard quali il Visual Basic integrato, C++, C#, Java, ecc.): si possono sviluppare sistemi di data mining altamente personalizzati ed ottimizzati specificatamente per le proprie esigenze.
  • Deployment automatico delle soluzioni in pochi secondi, usando gli strumenti integrati, o generazione di codice automatica per il deployment (per es., in C++) per i propri programmi

Si prema qui per maggiori informazioni sulle caratteristiche uniche di  STATISTICA Data Miner

Torna al Principio

Data Miner Recipe (DMR) - Un'interfaccia utente in stile Guida

Processo passo-per-passo in stile di ricettario, con la funzione di accompagnare l'utente attraverso l'intero processo di data mining:
  • Connessione ai dati
  • Modifica/preparazione dei dati
  • Esecuzione dei calcoli
  • Controllo dei risultati
  • Salvataggio/Deployment
  • File di progetto possono essere creati e salvati in qualsiasi fase del processo; i Progetti di Data Miner Recipe possono inoltre essere sottoposti automaticamente a deployment all'interno dell'ambiente di STATISTICA Enterprise


Un trend generale vede nel campo del data mining un crescente interesse nei confronti di soluzioni basate su semplici processi analitici, piuttusto che nei confronti dell'applicazione di strumenti analitici più complessi. L'approccio con STATISTICA Data Miner Recipe (SDMR) prevede l'utilizzo di un'interfaccia grafica intuitiva che consenta anche agli utenti meno esperti di eseguire processi analitici passo-per-passo. Attraverso finestre di dialogo intuitive, sarà possibile eseguire diverse operazioni di data mining quali la regressione, la classificazione, e l'analisi dei gruppi. Altre operazioni possono essere costruite rapidamente in forma di applicazioni personalizzate. Le "ricette" (recipe) complete potranno essere salvate e sottoposte a deployment in forma di file di progetto allo scopo di analizzare nuovi dati.

SDMR copre l'intera gamma di passaggi del processo di data mining - dall'interrogazione di database esterni allo sviluppo di un deployment finale delle soluzioni - e, in generale, consiste dei seguenti passaggi.

1. Identifica i dati sulla base dei quali apprendere
  • Si connette ai file dati di STATISTICA; IDP o spreadsheet
2. Pulisce i dati e rimuove i predittori ridondanti
  • Metodi flessibili ed efficaci per il campionamento dei dati (semplice, stratificato, sistematico, ecc.)
  • Modi più flessibili d'identificare e ricodifica i dati mancanti
  • Identificazione degli outlier
  • Trasformazione dei dati prima dell'esecuzione degli step successivi
  • Identificazione ed eliminazione dei predittori ridondanti
3. Identifica importanti predittori su un'ampia gamma di predittori fortemente legati alla variabile variabile dipendente (target) d'interesse
  • Selezione delle caratteristiche su insiemi di dati molto grandi (ad es., migliaia di variabili)
  • Individuazione d'importanti interazioni tra predittori attraverso l'uso di metodi ad alberi
4. Genera una gamma di modelli eliggibili
  • Sfrutta la selezione completa di tecniche di ultima generazione per il data mining predittivo disponibili in SDMR
  • Carica su WebSTATISTICA operazioni computazionalmente intensive (opzionale), liberando sul proprio computer locale risorse utili



5. Esegue una valutazione competitiva dei modelli per identificare il modello migliore rispetto alla performance, e alla complessità

6. Esegue il deployment del modello per l'analisi di nuovi dati attraverso l'efficientissimo motore integrato di deployment

Con pochi clic, il programma accompagnerà l'utente lungo tutto il processo analitico - dalla definizione dei dati di input e dall'analisi del problema, attraverso la pulitura e la preparazione dei dati, e attraverso la costruzione dei modelli, fino alla selezione del modello finale e al deployment.



Nonostante la maggioranza delle complessità di calcolo nel data mining venga risolta automaticamente in STATISTICA Data Miner Recipe, che consente anche all'utente meno esperto di spostarsi molto rapidamente dalla definizione del problema ad una soluzione, il programma "applicherà e testerà" un grande numero di algoritmi avanzati di data mining e determinerà automaticamente quale approccio risulti più efficace.

Quindi, la metodologia con STATISTICA Data Miner Recipe e l'interfaccia utente consentono di sfruttare la più grande raccolta di algoritmi di data mining in un singolo pacchetto.

Torna al Principio



Data Miner nell'installazione Client-Server di WebSTATISTICA.
La versione desktop di STATISTICA Data Miner è progettata per l'ambiente Windows. La versione Client-Server di STATISTICA Data Miner è un piattaforma indipendente sul lato Client e fornisce un'interfaccia utente basata sul browser di Internet; il lato Server lavora con tutti i principali sistemi operativi server Web (come ad esempio UNIX Apache) ed i computer server Wintel.

  • Integrazione incomparabile degli strumenti desktop con quelli del data mining di WebSTATISTICA; modelli progettati su una piattaforma (desktop o WebSTATISTICA server), eseguiti su un'altra piattaforma; modelli addestrati su una piattaforma (desktop o WebSTATISTICA server), e sviluppati su un'altra piattaforma.
  • Elaborazione distribuita e valutazione multi-coda dei progetti: il programma potrà giovarsi di architetture a più processori e/o a server multipli, per la valutazione dei modelli attraverso elaborazioni simultanee (elaborazione multicoda e distribuita); quindi la capacità delle installazioni WebSTATISTICA Data Miner di giovarsi di tali architetture consente un'incredibile flessibilità a scalare il sistema in modo tale da analizzare database anche estramente grandi.
  • Completa flessibilità di WebSTATISTICA: analisi dei dati in modalità a lotti, ricezione di notifiche via email nel momento in cui i risultati sono pronti; condivisione dei risultati in cartelle scelte (repository) con altri stakeholder coinvolti nei progetti di data mining; ecc.
  • Integrazione di dati di input, stakeholder, analisti, e utenti dei risultati dei progetti di data mining in ogni luogo al mondo; WebSTATISTICA consente di connettersi ai dati presenti su un server (attraverso Internet), di condividere le analisi con altri professionisti del data mining, e di mettere a disposizione soluzioni e risultati agli utenti nei luoghi anche più remoti (ad esempio, ai manager dislocati in piccole zone rurali, ai tecnici situati su remote piattaforme di perforazione, ai naviganti sulle rotte oceaniche, ecc.); fintanto che si dispone di un accesso ad Internet, sarà possibile coinvolgere chiunque nei progetti di data mining;
  • Ideale per un data mining di formazione: consente ai partecipanti (studenti) di sfruttare le opzioni di analisi da casa o dall'ufficio, ovunque vi sia accesso ad Internet. WebSTATISTICA fornisce a tutti i partecipanti di un corso di formazione una conoscenza pronta per l'uso dei più avanzati strumenti di data mining disponibili ad oggi!
Torna al Principio

Tecnologia Software Avanzata = Interfaccia Utente Efficiente ed Elegante

"Oggetti" di analisi e nodi di STATISTICA. Nel "cuore" di STATISTICA Data Miner è presente un insieme di oltre 300 procedure di STATISTICA fortemente ottimizzate, efficienti, ed estremamente veloci, richiamate da script Visual Basic (disponibili per l'utente in formato di codice sorgente), usati per specificare le relazioni tra le procedure (oggetti) e controllare la logica del progetto (ed il "flusso" dei dati). Questa architettura flessibile e personalizzabile è quella che supporta le funzionalità complete di tutte le procedure statistiche nell'ambiente di data mining sotto forma di oggetti. Questi script (oggetti di analisi) servono da "contenitori" o da collante per la definizione del flusso di dati all'interno dei progetti, mentre le analisi numeriche effettive sono eseguite tramite le procedure analitiche estremamente veloci di STATISTICA. Gli oggetti, che possono essere usati come nodi per la ripulitura e/o il filtraggio dei dati, e per analizzare i dati, sono organizzati nel Node Browser.

I nodi disponibili nel node browser (e, quindi, disponibili nel progetto di data mining) sono:
  • Nodi per l'input e l'acquisizione dei dati. Qui si possono creare e archiviare gli script necessari per connettersi a fonti dati remote (protette) su un server. Ovviamente, si possono anche analizzare file dati di STATISTICA o porre "punti d'ingresso" per l'elaborazione in loco di database remoti (si veda IDP), nel qual caso, comunque, non si dovranno creare nodi (script) speciali.
  • Nodi per il filtraggio, la ripulitura, la verifica, la selezione di caratteristiche ed il sottocampionamento dei dati. Queste opzioni sono essenziali per il data mining per individuare e correggere informazioni erronee che possono distorcere le conclusioni finali. Le facilitazioni per il sottocampionamento sono utili per analizzare data set molto grandi (si veda Benchmark comparativi sulle prestazioni relative all'utilizzo di grandi insiemi di dati), per estrarre campioni casuali per ulteriori analisi. Le opzioni di selezione delle caratteristiche permettono di selezionare automaticamente variabili informative (predittori) all'interno, per esempio, di centinaia di migliaia di possibili predittori (si veda anche Selezione delle Caratteristiche e Filtraggio delle Variabili).
  • Nodi per l'analisi dei dati. Questi nodi contengono le funzionalità complete di tutte le procedure di analisi e grafiche di STATISTICA; sono disponibili centinaia di procedure per poter rispondere praticamente a tutte le esigenze analitiche che possono sorgere nel progetto di data mining.

Creare il progetto di data mining. Questi nodi possono essere semplicemente connessi nello spazio di lavoro di data mining.

Lo spazio di lavoro di data mining è un ambiente di analisi dei dati strutturato, estremamente efficiente, dall'uso intuitivo, in cui ci si può muovere e quindi connettere i dati, le analisi ed i risultati semplicemente trascinando icone e connettendo queste con frecce. Si possono aprire, modificare ed eseguire simultaneamente tanti spazi di lavoro di data mining quanti ne servono, e trascinare nodi (oggetti) tra spazi di lavoro e tra node browser. L'area dello spazio di lavoro è suddivisa in aree che riservano spazio per:

  • Acquisizione dati. Questa è la zona in cui si possono specificare le fonti dati (per es., file dati di STATISTICA, "punti d'ingresso" per elaborazioni in loco di dati su server remoti, programmi che generano dati per un uso in modellazioni avanzate).
  • Preparazione, ripulitura, trasformazione dei dati. I nodi presenti in quest'area accetteranno come input una o più fonti dati e creeranno una o più fonti dati (filtrate, ripulite, trasformate) per ulteriori analisi "in cascata".
  • Analisi, modellazione, classificazione, previsione dei dati. I nodi presenti in quest'area eseguiranno le analisi numeriche.
  • Report. Quest'area mostrerà i risultati delle analisi.
    .


    Creare un progetto di Data Mining è facile: si selezioni dapprima una fonte dati; poi si applichino le trasformazioni, le preparazioni e i filtraggi dei dati, se necessari; quindi si connettano le analisi desiderate ai dati ripuliti e, per ultimo, si visualizzino e/o pubblichino i risultati. Molti utenti di STATISTICA Data Miner non avranno mai bisogno di "andare oltre" questa semplice interfaccia interattiva in stile "punta e clicca".




    Specificare modelli complessi. La semplice interfaccia utente -- basata su selezioni "in punta di mouse" da menu e browser -- permetterà di applicare metodi anche molto avanzati. Si possono selezionare diversi "modelli" di progetto esaustivi e flessibili che permettono l'esecuzione di operazioni comuni di data mining. Per esempio, per trovare un buon modello per prevedere il rischio di credito di nuovi clienti sulla base di dati storici che includono diversi predittori potenzialmente utili, si dovrà semplicemente selezionare il modello per il progetto Modelli di Regressione Esaustivi Avanzati.




    Tutto ciò che si dovrà fare in seguito sarà connettere i dati storici, specificare le variabili di interesse, e "addestrare" il progetto; quindi, in pochi secondi (selezionare il file dati, selezionare le variabili, selezionare lo strumento freccia per connettere i dati), il programma automaticamente:

    • Creerà due campioni per l'addestramento e la validazione incrociata, per evitare il sovra-adattamento;
    • Applicherà la regressione lineare per il miglior sottoinsieme, gli algoritmi ad albero di regressione standard, il CHAID ed il CHAID estaustivo, un percettrone multistrato a 3 strati, ed una funzione a base radiale per trovare un buon modello atto a prevedere il rischio di credito;
    • Combinerà tutte le risposte in un "meta-learner" che individuerà il migliore modello o combinerà le previsioni provenienti da più modelli.

    Dopo aver applicato queste tecniche avanzate per la modellazione di relazioni lineari, non lineari o anche caotiche, si è pronti per il deployment: si connetta semplicemente la fonte dati per i nuovi dati (nuovi clienti) al nodo Compute Best Prediction From All Models, ed il programma applicherà automaticamente i modelli già pienamente testati per derivare la miglior previsione possibile.

    Velocità. I nodi di analisi (oggetti) contengono le funzionalità complete di STATISTICA, incapsulate in chiamate fatte dagli script di nodo scritti in STATISTICA Visual Basic standard. Tuttavia, le analisi effettive sono eseguite tramite i moduli altamente ottimizzati delle analisi di STATISTICA, raffinati da circa due decadi di esperienza, per ottenere la più elevata velocità, efficienza e accuratezza (si vedano anche i Benchmark di accuratezza).

    Grandi insiemi di dati. STATISTICA Data Miner sfrutta un numero di tecnologie specificamente sviluppate per ottimizzare l'elaborazione di grandi insiemi di dati, ed è progettato per manipolare i problemi computazionali di più grande scala e per elaborare database molto grandi. Ad esempio, possono essere elaborati e filtrati automaticamente insiemi di dati con oltre un milione di variabili (attraverso un'ampia gamma di metodi) per la ricerca dei migliori predittori o delle variabili più rilevanti (si veda anche Selezione delle Caratteristiche e Filtraggio delle Variabili e Benchmark comparativi sulle prestazioni relative all'utilizzo di grandi insiemi di dati).

    Personalizzare le analisi. Le operazioni di analisi o di ripulitura/filtraggio dei dati implementare dai nodi di STATISTICA Data Miner possono essere ulteriormente personalizzate facendo semplicemente un doppio clic sulle rispettive icone: ogni icona contiene le opzioni per personalizzare in maniera completa le rispettive operazioni; per esempio, facendo clic su un nodo per reti neurali si richiamerà una finestra di dialogo (comprensiva di aiuti) per la personalizzazione della analisi specifica (per modificare il numero di iterazioni, il numero di strati nella rete, il dettaglio dei risultati riportati, ecc.).

    Salvare il progetto. L'intero progetto (spazio di lavoro) può essere salvato, insieme a tutte le relative personalizzazioni, le fonti dati intermedie, i commenti, ecc. Le analisi di routine (per es., per l'aggiornamento periodico dell'addestramento di un insieme complesso di modelli per la classificazione basata su voting, fatto a partire da diversi metodi di classificazione) possono essere salvate ed in seguito applicate facendo clic su un solo pulsante ("aggiorna").

    Nota Tecnica: Script di Nodo di STATISTICA Data Miner. Le routine computazionali di STATISTICA Data Miner sono estremamente veloci e altamente ottimizzate. Per esempio, nell'ambiente Client-Server di WebSTATISTICA, il programma si gioverà automaticamente delle architetture a più processori e/o multi-server (con appropriato supporto hardware), per la valutazione dei modelli attraverso più elaborazioni simultanee (multi-coda, elaborazione distribuita). In più, le routine altamente specializzate per l'elaborazione dei dati supereranno gli altri software in un confronto testa-a-testa (si vedano i benchmark disponibili in www.statsoft.com). Inoltre, per gli utenti avanzati sarà molto semplice personalizzare il sistema; ogni nodo di STATISTICA Data Miner consiste di uno script standardizzato in STATISTICA Visual Basic (che richiama le rispettive procedure di STATISTICA), con accesso alle funzioni aggiuntive per la fornitura di un'interfaccia utente ad uso di analisi personalizzate successive. Può anche non essere mai necessaria la modifica di tali script; tuttavia, se il proprio dipartimento IT o eventuali consulenti desiderano inserire algoritmi proprietari in STATISTICA Data Miner, questo è comunque possibile. Dentro lo script può essere eseguito un qualsiasi numero di operazioni numeriche altamente personalizzate, al fine di modificare praticamente tutti gli aspetti dei dati, o per applicare una delle migliaia di funzioni analitiche disponibili in forma di semplice richiamo di funzione che può essere effettuato da C++ o da STATISTICA Visual Basic. Questa architettura generale aperta di STATISTICA Data Miner fornisce numerosi vantaggi unici (illustrati anche nella sezione Caratteristiche Uniche).

    • Ogni nodo può gestire più fonti dati in input e più fonti dati in output; si possono applicare operazioni identiche su più fonti dati usando un solo nodo.
    • Una fonte dati può essere anche una mappatura su un database che non dovrà necessariamente risiedere (fisicamente) nella macchina che esegue STATISTICA Data Miner, e neanche dovrà necessariamente essere copiata in questa; questo fatto è estremamente importante, quando si devono elaborare grossi data set, come spesso accade nel data mining (si veda tecnologia IDP).
    • Si possono eseguire operazioni entro e tra fonti dati; per esempio, si possono unire dati provenienti da diversi database remoti in un singolo file dati, così da permettere ulteriori elaborazioni con i nodi analitici di STATISTICA Data Miner.
    • Visual Basic stesso è un semplice linguaggio orientato ad oggetti, disponibile per la gran parte di programmi applicativi standard; per esso si può trovare una dotazione virtualmente illimitata di risorse di programmazione, programmatori con esperienza e di talento, nonché applicazioni di terze parti che possono essere integrate con STATISTICA Data Miner. Allo stesso modo, STATISTICA Data Miner può essere integrato con altre applicazioni, per esempio, per inviare automaticamente i risultati sul WEB o via email, o ancora per esportare i risultati in altre applicazioni. Inoltre, è disponibile una versione totalmente basata su Web di STATISTICA Data Miner, potenziata tramite WebSTATISTICA Server.
    • Le funzionalità di registrazione delle macro di STATISTICA registreranno automaticamente le analisi interattive; queste registrazioni possono essere facilmente convertite in script per nodi personalizzati.
    • Ove applicabili, le analisi di STATISTICA contengono opzioni per generare codice in STATISTICA Visual Basic per il deployment (cioè, la "distribuzione", per es., di reti neurali addestrate); questi script possono essere usati direttamente in script per nodi di deployment personalizzati.
    Distribuire (deployment) le soluzioni. I risultati delle analisi effettuate tramite STATISTICA Data Miner possono essere distribuiti (applicati a nuovi dati o all'interno di altri sistemi di elaborazione dati automatizzati) in diverse maniere.
    • Deployment automatico di modelli. I modelli di data mining con deployment per tipi standard di analisi possono essere scelti come opzioni dei menu pull-down: si selezioni un modello, si connettano i dati di addestramento per stimare i modelli, e si sarà già in grado di applicare la migliore soluzione (soluzione media, soluzione voted, ecc.) a nuovi dati; l'utente finale dovrà semplicemente connettere nuovi dati al nodo di deployment per calcolare previsioni, classificazioni, ecc.
    • Deployment Rapido dei modelli predittivi basato sul PMML. Le opzioni del Deployment Rapido dei Modelli Predittivi permettono di elaborare i metodi più veloci e più efficienti per il calcolo delle previsioni a partire da modelli completamente addestrati; infatti, è molto difficile "battere" la prestazione (in termini di velocità dei calcoli) di tale strumento, anche se si ha intenzione di scrivere un proprio codice C++ compilato, basato sul codice di deployment (in C, C++, od in C#) generato dai modelli rispettivi. Le opzioni del Deployment Rapido dei Modelli Predittivi consentono di caricare uno o più file in PMML con informazioni di deployment, e di calcolare molto velocemente previsioni (in un singolo passo attraverso i dati) per grandi numeri di osservazioni (per uno o più modelli). I file in PMML (Predictive Models Markup Language) possono essere generati da praticamente tutte le procedure analitiche per il data mining predittivo (così come le opzioni di Analisi dei Gruppi EM Generalizzata e k-Means). PMML è un insieme di convenzioni di sintassi standard industriali basate su XML (Extensible Markup Language) che sono particolarmente adatte alla condivisione d'informazioni di deployment in un'architettura Client Server (ad esempio, attraverso WebSTATISTICA).
    • Opzioni del generatore di codice C, C++, C#, Visual Basic. Le opzioni del Generatore di Codice sono disponibili anche per problemi di regressione (previsione di variabili continue), di classificazione (previsione di variabili categoriali), e di diversi tipi di analisi dei gruppi; è possibile, ad esempio, salvare del codice in C++ o del codice in Visual Basic che implementi la previsione a partire da algoritmi ad alberi di classificazione, da analisi di funzioni discriminanti lineari, da modelli lineari generalizzati, da reti neurali, da Spline MAR (spline di regressione multivariate), da soluzioni di raggruppamento k-means o EM (apprendimento non supervisionato), ecc. Il codice generato da queste opzioni possono essere velocemente integrate nei programmi personalizzati per il deployment. Per esempio, il codice in Visual Basic generato da moduli di analisi di STATISTICA s'integrerà in maniera incomparabile nell'architettura di STATISTICA Data Miner; basati sul codice generato in Visual Basic da STATISTICA, i nodi di deployment personalizzati possono essere programmati in alcuni minuti, anche da programmatori privi di esperienza.


    Utilizzo di STATISTICA Data Miner con Insiemi di Dati Estremamente Grandi

    L'intera famiglia di prodotti di STATISTICA e STATISTICA Data Miner in particolare sono specificamente ottimizzati per l'elaborazione efficiente di insiemi di dati estremamente grandi (si veda Bechmark comparativo sulle prestazioni relative all'utilizzo di grandi insiemi di dati), con milioni di osservazioni (record) e milioni di variabili.

    Elaborazione di database più grandi dei sistemi di immagazzinamento locali. STATISTICA Data Miner (e opzionalmente tutti gli altri prodotti di STATISTICA) possono elaborare in loco i dati di database (remoti) attraverso la sua evolutissima  tecnologia Elaborazione in loco dei Database (IDP), che combina le risorse elaborative del server di database ed il computer locale per (a) eseguire le query (attraverso la CPU del database server) quando simultaneamente (b) vengono elaborati record "al volo" sulla macchina locale (attraverso la CPU (client) del computer locale). In questo modo, potranno essere elaborati database più grandi rispetto a quello che potrebbe essere fatto sulla macchina locale, e può essere ottenuto un maggior guadagno in termini di prestazione risparmiando del tempo che normalmente verrebbe impiegato per importare, come prima cosa, i dati sulla macchina locale e quindi per elaborarli localmente. In pratica sono supportati tutti i più comuni formati di database, e sono forniti gli strumenti per la definizione delle connessioni ai database (query).

    Elaborazione di database contenente un numero estremamente grande di variabili (campi): Le funzionalità di selezione delle caratteristiche e di screening delle variabili. Quando il numero di variabili nel file dati di input è estremamente grande, STATISTICA Data Miner può selezionare automaticamente sottoinsiemi di variabili tra anche oltre un milione di variabili (candidate) per il data mining predittivo. L'algoritmo estremamente veloce ed efficiente selezionerà le variabili (caratteristiche) che rappresenteranno verosimilmente i predittori più rilevanti presenti nell'insieme di dati corrente, senza introdurre distorsioni nella successiva costruzione del modello per il data mining predittivo.

    Elaborazione di file dati con numeri estremamente grandi di casi (record): Campionamento casuale flessibile ed efficiente. I prodotti di STATISTICA (incluso STATISTICA Data Miner) possono elaborare file dati con numeri praticamente illimitati di casi (record), e le procedure di accesso ai dati di STATISTICA sono altamente ottimizzate. Tuttavia, l'inclusione di tutti i record nelle analisi quando il numero di record è estremamente grande è un'operazione (a) generalmente inutile, (b) dispensiosa in termini di tempo, e (c) spesso impraticabile o impossibile (in casi estremi potrebbero essere necessarie ore soltanto per leggere tutti i record). Per velocizzare il processo analitico, STATISTICA Data Miner include strumenti sofisticati per l'estrazione di campioni casuali o stratificati casuali da grandi insiemi di dati (database). L'utente può estrarre velocemente campioni casuali semplici o sistematici di dimensioni appropriate, con o senza reinserimento, da grandi insiemi di dati (ad esempio, con molti milioni di record) per ulteriori analisi con sofisticati strumenti di modellazione che potrebbero richiedere molti passi (ad esempio, le reti neurali, i modelli lineari generalizzati, ecc.). Il sotto-campionamento casuale è basato sul generatore di numeri casuali validato di STATISTICA. Si noti che STATISTICA è uno dei soli prodotti software disponibili ad aver passato i test più avanzati e più conosciuti per la randomizzazione (l'insieme di test DIEHARD).

    Elaborazione distribuita e valutazione multi-coda dei progetti nell'ambiente Client-Server. L'installazione Client-Server di WebSTATISTICA di STATISTICA Data Miner offre vantaggi aggiuntivi per l'elaborazione di dataset molto grandi. Il programma si gioverà automaticamente di architetture multi-processore e/o a server multiplo (con adeguato supporto hardware) per la valutazione dei modelli attraverso processi multipli simultanei (elaborazioni multi-coda, distribuiti). Di qui, considerando i costi decrescenti di hardware server avanzati (con processori multipli, o per installazioni multi-server), la possibilità delle installazioni di WebSTATISTICA Data Miner di giovarsi di tali tipi di architetture forniscono un'incredibilità flessibilità nello scaling del sistema al fine di un mining su database anche estremamente grandi.

    Torna al Principio

    Strumenti di Data Mining

    STATISTICA Data Miner offre la selezione più esauriente di tecniche statistiche, esplorative e di rappresentazione dei dati disponibili nel mercato, incluse anche procedure "di punta" estremamente efficienti per l'apprendimento e la classificazione, basate su reti neurali. Inoltre, le funzionalità analitiche complete di STATISTICA sono disponibili per il data mining, incapsulate in oltre 300 nodi che possono essere selezionati da un Node Browser strutturato e personalizzabile, e che possono essere trascinati nello spazio di lavoro di data mining.

    Gli strumenti specializzati per il data mining sono ottimizzati per ottenere la massima velocità ed efficienza, e possono essere classificati nelle cinque "aree" generali che seguono (ognuna di esse comprende un insieme di moduli di STATISTICA, alcuni dei quali offerti solo nell'ambiente di STATISTICA Data Miner):

    Generatore Generale di Stratificazioni/Ipercubi e Drill-Down. È disponibile un gran numero di nodi di analisi per la creazione di grafici esplorativi, per calcolare statistiche descrittive, tabulazioni, ecc. Questi nodi possono essere connessi a fonti di dati di input, oppure a tutti i risultati intermedi. È disponibile un modulo applicativo specializzato di STATISTICA (STATISTICA Drill-Down Explorer) per esplorare interattivamente i dati "scavando" nelle variabili selezionate, e nelle categorie o negli intervalli di valori presenti in queste variabili. Per esempio, è possibile analizzare la variabile Sesso, per visualizzare la distribuzione di una variabile Reddito per le sole donne; in seguito si potrà analizzare uno specifico gruppo di reddito, per esplorare (per es., creare riassunti grafici per) variabili selezionate, per le donne, nel solo gruppo di reddito selezionato. Una caratteristica unica di STATISTICA Drill-Down Explorer è la possibilità di selezionare e deselezionare variabili e categorie su cui eseguire il drill-down in un ordine qualunque; così, l'utente potrà in seguito deselezionare la variabile Sesso e visualizzare i grafici e le statistiche selezionati per il gruppo di Reddito selezionato, ma per uomini e donne insieme. Un'altra caratteristica unica di Drill-Down Explorer è la varietà di categorizzazioni ("stratificazioni") offerte. Lo STATISTICA Drill-Down Explorer offre una tremenda flessibilità per "stratificare e generare ipercubi" sui dati. Lo STATISTICA Drill-Down Explorer può essere applicato a dati grezzi, connessioni su database per elaborazioni in loco di dati posti su database remoti, o su qualunque risultato intermedio calcolato in un progetto di STATISTICA Data Miner. (È anche disponibile un'applicazione OLAP totalmente integrata (come modulo aggiuntivo per installazioni enterprise); si contatti StatSoft per avere dettagli.)

    Classificatore Generale. STATISTICA Data Miner offre la più ampia selezione di strumenti per eseguire tecniche di classificazione di data mining (e per costruire i relativi modelli distribuibili) disponibile nel mercato, che include i modelli lineari generalizzati (per risposte binomiali e multinomiali), gli alberi di classificazione, modellazione ad alberi di classificazione e di regressione generali (GTrees), modelli CHAID generali, tecniche di analisi dei gruppi di raggruppamento ad alberi così come i metodi di raggruppamento k-means ed EM con opzioni di validazione incrociata per la determinazione automatica del miglior numero di campioni), ed i  modelli di analisi discriminante generale (includenti la selezione dei predittori a miglior sottoinsieme). Inoltre, in STATISTICA Data Miner sono disponibili i numerosi classificatori avanzati basati su rete neurale disponibili in Reti Neurali di STATISTICA e questi possono essere usati in congiunzione o in competizione con altre tecniche di classificazione.

    • Deployment (distribuzione). Ove applicabili, il programma offre opzioni per generare codice C, C++ o STATISTICA Visual Basic per la distribuzione delle soluzioni finali nei propri programmi personalizzati; i modelli sono anche disponibili automaticamente per il deployment dopo l'addestramento, cosicché tutto ciò che si dovrà fare sarà connettere nuovi dati al nodo speciale di deployment, per calcolare le classificazioni previste.

    Modellatore ed Esploratore Multivariato Generale. STATISTICA Data Miner offre la più ampia selezione di strumenti per costruire modelli di data mining distribuibili, basati su tecniche lineari, non lineari o di rete neurale, nonché strumenti per esplorare i dati; l'utente potrà anche costruire modelli predittivi sulla base di tecniche multivariate generali. Riassumendo, STATISTICA offre tutto il campionario di tecniche, dai modelli lineari e i modelli di regressione non lineari, i modelli lineari generalizzati avanzati e i modelli generalizzati additivi, ai metodi di rete neurale avanzati. STATISTICA Data Miner include anche tecniche che usualmente non si trovano nei software di data mining, quali i metodi dei minimi quadrati parziali (per la riduzione del numero delle variabili), l'analisi della sopravvivenza (per analizzare dati contenenti osservazioni censurate; per es. per dati di ricerca medica e dati provenienti da studi nel campo industriale sull'affidabilità ed il controllo della qualità), le tecniche di modellazione di equazioni strutturali (per costruire e valutare modelli lineari confermativi), l'analisi delle corrispondenze (per analizzare la struttura di tabelle complesse), l'analisi fattoriale e lo scaling multidimensionale (per esplorare la struttura su un gran numero di variabili), e molto altro.

    li>Deployment (distribuzione). Ove applicabili, il programma offre opzioni per generare codice C, C++ o STATISTICA Visual Basic per la distribuzione delle soluzioni finali nei propri programmi personalizzati; i modelli sono anche disponibili automaticamente per il deployment dopo l'addestramento, cosicché tutto ciò che si dovrà fare sarà connettere nuovi dati al nodo speciale di deployment, per calcolare i valori previsti. Previsore Generale. STATISTICA Data Miner include un'ampia selezione di tecniche di previsione tradizionali (cioè, che non si basano su reti neurali) (incluso l'ARIMA, il lisciamento esponenziale con componenti stagionali, la decomposizione spettrale di Fourier, la decomposizione stagionale, l'analisi di regressione e a ritardi polinomiali, ecc.), nonché metodi basati su reti neurali per dati di serie storiche.

    • Deployment (distribuzione). Le previsioni possono essere calcolate automaticamente a partire da più modelli presenti nel progetto di data mining, e queste possono essere tracciate in un singolo grafico per una valutazione comparativa. Per esempio, è possibile calcolare e confrontare le previsioni provenienti da più modelli ARIMA, da metodi differenti di lisciamento esponenziale stagionale e non stagionale, e dalle migliori architetture di reti neurali per serie storiche (dopo aver ricercato entro oltre 100 architetture differenti).

    Esploratore di Reti Neurali Generale. Questo strumento contiene la più ampia selezione disponibile di metodi per reti neurali disponibili nel mercato. Questo potente componente di STATISTICA Data Miner offre strumenti per approcciare praticamente qualunque problema di data mining (inclusa la classificazione, l'individuazione di strutture nascoste e una potente previsione). Una delle caratteristiche uniche dell'esploratore di reti neurali è la selezione di strumenti intelligenti di risoluzione dei problemi e di wizard automatici che utilizzano i metodi dell'Intelligenza Artificiale per aiutare nella risoluzione dei problemi più impegnativi coinvolti nell'analisi avanzata di reti neurali (come la selezione della migliore architettura di rete neurale e del miglior sottoinsieme di variabili). L'esploratore offre la più ampia selezione di architetture e procedure di punta per le reti neurali nonché algoritmi estremamente ottimizzati che includono: Multilayer perceptrons, reti radial basis function, reti neurali probabilistiche, reti neurali di regressione generalizzata, self-organizing feature maps, modelli lineari, reti a componenti principali e reti di cluster. Si possono anche analizzare insiemi di reti di tutte queste architetture. I metodi di stima includono la back propagation, conjugate gradient decent, quasi-Newton, Levenberg-Marquardt, quick propagation, delta-bar-delta, LVQ, algoritmi di potatura, ed altro ancora; sono disponibili opzioni per la validazione incrociata, il bootstrap, il sottocampionamento, l'analisi di sensibilità, ecc.

    • Deployment. Reti Neurali di STATISTICA include le opzioni del generatore di codice per produrre codice C, C++ e STATISTICA Visual Basic a partire da una o più reti e/o insiemi di reti addestrate. Questo codice può essere incorporato rapidamente nei propri programmi personalizzati di deployment. Inoltre, le reti neurali e gli insiemi di resti neurali addestrati possono essere salvati per essere applicati in seguito nel calcolo delle risposte o delle classificazioni previste su nuovi dati. Si può trascinare un nodo di deployment nello spazio di lavoro del data miner per eseguire automaticamente previsioni e classificazioni predittive in base alle reti neurali addestrate; tutti ciò che si deve fare (dopo aver addestrato le reti neurali che partecipano alla previsione) è connettere al nodo di deployment i relativi dati.
    Torna al Principio

    Modelli di Data Mining Specializzati

    Un'ampia porzione funzionalità analitiche usate da STATISTICA Data Miner è ricavata dai motori di calcolo dei moduli inclusi negli altri prodotti STATISTICA (si vedano le parti rispettive della sezione dei
    Prodotti di STATISTICA per avere informazioni dettagliate su questi moduli):

    • Tecniche di Reti Neurali (la più grande selezione di architetture disponibili, strumenti di problem solver automatico, tecniche di selezione delle caratteristiche automatiche).

    • Tutti gli Strumenti Grafici di STATISTICA e gli strumenti interattivi di esplorazione/visualizzazione; Statistiche descrittive, segmentazioni, e analisi esplorativa dei dati; Tabelle di Frequenza, Tabelle Incrociate, Tabelle e Tabelle Stub-and-Banner, Analisi di Risposta Multipla; Statistiche Non Parametriche; Adattamento di Distribuzioni; Tecniche di Analisi della Potenza.

    • Modelli Lineari Generali (GLM); Modelli di Regressione Generali (GRM); Modelli Lineari Generalizzati (GLZ); Modelli ai Minimi Quadrati Parziali Generali (PLS); Componenti di Varianza e Modello Misto ANOVA/ANCOVA; Analisi di Sopravvivenza; Stima Non Lineare Generale con Regressione Logit e Probit; Analisi Log-Lineare delle Tabelle di Frequenza; Analisi/Previsione di Serie Storiche; SEPATH.

    • Tecniche di Analisi dei Gruppi; Analisi Fattoriale; Analisi delle Componenti Principali e di Classificazione; Analisi della Correlazione Canonica; Analisi dell'Attendibilità/Item; Alberi di Classificazione; Analisi delle Corrispondenze; Scaling Multidimensionale; Analisi Discriminante; Modelli per l'Analisi Discriminante Generale (GDA).

    • Carte di Controllo della Qualità, Analisi dei Processi, e procedure di Pianificazione di Esperimenti (DOE).

    Tuttavia, molti modelli includono selezioni di tecniche di data mining altamente specializzate e di modellazione offerte solo come parte di STATISTICA Data Miner. Le seguenti sezioni includono informazioni tecniche relative a questi moduli.

    SELEZIONE DELLE CARATTERISTICHE E FILTRAGGIO DELLE VARIABILI. Questo modulo selezionerà automaticamente sottoinsiemi di variabili per file dati estremamente ampi o per database connessi per una elaborazione in loco (IDP). Il modulo può gestire un numero praticamente illimitato di variabili: possono essere analizzate letteralmente milioni (!) di variabili di input per selezionare predittori per la regressione o la classificazione. Nello specifico, il programma include diverse opzioni per selezionare variabili ("caratteristiche") che probabilmente saranno utili o informative in specifiche analisi successive. Gli algoritmi unici implementati nel modulo Selezione delle Caratteristiche e Filtraggio delle Variabili selezioneranno le variabili predittive continue e categoriali che mostreranno presentare una relazione con le variabili dipendenti continue o categoriali d'interesse, indipendentemente dal fatto che la relazione possa essere semplice (per es., lineare) o complessa (non lineare, non monotòna). Pertanto, il programma non "sposterà" la selezione in favore di un particolare tipo di modello utilizzabile per trovare una migliore regola o equazione finale (o altro), per la previsione o la classificazione. Sono anche disponibili diverse opzioni per la selezione delle caratteristiche. Questo modulo è particolarmente utile in congiunzione con elaborazione in loco di database senza dover copiare o importare i dati di input nella macchina locale), dove può essere usato per analizzare enormi liste di variabili di input, selezionare le candidate che con maggiore probabilità conterranno informazioni rilevanti per le analisi di interesse e, tra queste, selezionare automaticamente le variabili per effettuare ulteriori analisi con altri nodi del progetto di data miner. Per esempio, un sottoinsieme di variabili costruito su una analisi iniziale fatta tramite questo modulo può essere inviato alle opzioni di selezione delle caratteristiche per Reti Neurali di STATISTICA tper ulteriori analisi. Queste opzioni permettono a STATISTICA Data Miner di gestire dataset di dimensioni che spaziano nell'ordine dei giga- o terabyte. (si veda Benchmark comparativi sulle prestazioni relative all'utilizzo di grandi dimensioni).

    Torna al Principio

    REGOLE DI ASSOCIAZIONE. Questo modulo contiene una implementazione completa del cosiddetto algoritmo per individuare a-priori  ("effettuare il mining per") regole di associazione, quali per esempio, "i clienti che ordinano il prodotto A, spesso acquistano anche il prodotto B o C" o "gli impiegati che pensano cose positive sull'iniziativa X, spesso concordano anche con la questione Y e sono felici nella situazione Z" (si veda Agrawal and Swami, 1993; Agrawal and Srikant, 1994; Han and Lakshmanan, 2001; di veda anche Witten and Frank, 2000). Il modulo STATISTICA Regole di Associazione permette di elaborare rapidamente enormi data set per la ricerca di associazioni (relazioni), sulla base di valori "soglia" predefiniti per la ricerca. Nello specifico, il programma individuerà le relazioni o le associazioni tra valori specifici di variabili categoriali in grandi dataset. Questa è una operazione comune in molti progetti di data mining applicati a database contenenti registrazioni delle transazioni dei clienti (per es., gli oggetti acquistati da ogni cliente), ed anche nell'area del text mining. Come per tutti i moduli di STATISTICA, i dati presenti in basi di dati esterne possono essere elaborati "in loco" dal modulo STATISTICA Regole di Associazione (si veda la tecnologia IDP), il programma è quindi preparato per analizzare e gestire efficientemente compiti di analisi estremamente ampi.

    I risultati possono essere visualizzati in tabelle, ed anche in grafici unici 2D e 3D, in cui le associazioni forti sono evidenziate per mezzo di linee spesse che connettono i rispettivi elementi.


    Torna al Principio

     ESPLORATORE A DRILL-DOWN INTERATTIVO. Un primo passo in molti progetti di data mining è l'esplorazione interattiva dei dati, per ottenere una prima "impressione" sui tipi di variabili coinvolte nell'analisi e sulle loro possibili relazioni. Il proposito dell'Esploratore a Drill-Down Interattivo è quello di fornire uno strumento combinato per l'esplorazione grafica, l'analisi dei dati, e la tabulazione che permetteranno di visualizzare le distribuzioni delle variabili nelle analisi; le loro relazioni con le altre variabili, e di identificare le osservazioni reali appartenenti agli specifici sottogruppi di dati.

    Come lavora l'Esploratore a Drill-Down. Nel contesto del data mining il termine "drill-down" descrive molto bene l'operazione alla base di questo processo analitico: Il programma permette di selezionare le osservazioni a partire da insiemi di dati più grandi attraverso la selezione di sottogruppi basati su specifici valori o intervalli di valori di particolari variabili d'interesse (come ad esempio, il Sesso e gli Acquisti Medi dell'esempio precedente); in un certo senso è possibile esporre i "livelli più profondi" o gli "strati" presenti nei dati grazie alla visualizzazione di sottoinsiemi sempre più piccoli di osservazioni selezionati attraverso condizioni di selezione sempre più logicamente complesse.

    Drilling "up." La natura interattiva dell'Esploratore a Drill Down non permette solo il drill-down dei dati o dei database (selezione di gruppi di osservazioni attraverso condizioni di selezione sempre più logicamente complesse), ma anche il "drill up": In qualsiasi momento, è possibile selezionare uno dei gruppi di variabili precedentemente specificate (categoria) e de-selezionarlo dalla lista delle condizioni di drill-down; durante l'elaborazione dei dati il programma selezionerà quindi quelle osservazioni che si adattano alle rimanenti condizioni di selezione (dei casi), ed aggiornerà i risultati di conseguenza.

    Applicazioni dell'Esplorazione a Drill-Down Interattiva. L'esempio mostrato in precedenza è molto semplice, ed espone soltanto la funzionalità di base del programma. Il reale potere dell'Esploratore a Drill Down Interattivo di STATISTICA si basa su vari risultati ausiliari che possono essere aggiornati automaticamente durante l'esplorazione a drill-down interattiva: è possibile selezionare una lista di variabili da controllare, e calcolare per i casi selezionati:

  • Statistiche descrittive e tabelle di frequenza;
  • Box-and-whiskers riassuntivi le distribuzioni delle variabili continue;
  • Matrici di scatterplot riassuntivi le relazioni tra le variabili continue;
  • Tutte le altre analisi statistiche e grafiche disponibili in STATISTICA estraendo le osservazioni appartenenti al sottoinsieme corrente;

    È possibile, ad esempio, rivedere i tipi di acquisti effettuati dai consumatori con differenti caratteristiche grafiche, studiare l'efficacia di certi farmaci all'interno di differenti gruppi di trattamento, di età, ecc., o estrarre i probabili clienti per un nuovo prodotto a partire da un database di clienti precedenti sulla base di un attento studio dei segmenti apparenti (di mercato) esposti dall'analisi a drill-down.

    Esploratore a Drill-Down Interattivo e OLAP (On-Line Analytic Processing). Apparentemente, il funzionamento dell'Esploratore a Drill-Down Interattivo (esplorazione di tabelle multidimensionali) è molto simile alla funzionalità offerta dagli strumenti OLAP (come quelli offerti nel modulo OLAP add-on a STATISTICA Data Miner). Gli strumenti OLAP consentono agli utenti di interrogare velocemente un database per estrarre le osservazioni e le informazioni riassuntive relative a quelle osservazioni che si giovano delle funzionalità Server ottimizzate di OLAP offerte per una specifica piattaforma di database (come ad esempio, Oracle, o MS SQL Server), e spesso fornendo significativi vantaggi in termini di prestazione rispetto ai pacchetti basati sui tradizionali strumenti d'interrogazione. Tuttavia, i principali vantaggi dell'Esploratore a Drill-Down Interattivo sull'OLAP sono:

    (a) la sua stretta integrazione con i flessibili strumenti di categorizzazione e con l'ambiente esplorativo di STATISTICA (le funzionalità analitiche fornite dall'Esploratore a Drill Down Interattivo di STATISTICA sono molto più complete ed anche generali di qualsiasi strumento OLAP, poichè supporta operazioni flessibili di "drill up", e poichè permette di rivedere velocemente i grafici di riepilogo personalizzati, le statistiche descrittive dettagliate, ecc.), e

    (b) il fatto che l'Esploratore Drill Down Interattivo di STATISTICA non sia limitato ad una qualsiasi particolare piattaforma di database e che non richieda uno specifico Server OLAP (esso può operare, ad esempio, direttamente sui file dati di STATISTICA). Allo stesso tempo, connettendo all'applicazione di STATISTICA un database (remoto) per un'elaborazione in loco, è possibile eseguire efficacemente operazioni di drill down su qualsiasi sorgente di dati, indipendentemente dal fatto che gli strumenti OLAP sia disponibili o no sul server.

    Torna al Principio

    ANALISI DEI GRUPPI  EM E K-MEANS GENERALIZZATI. Il modulo Analisi dei Gruppi EM (Expectation Maximization) e k-Means Generalizzati è un'estensione delle tecniche disponibili nelle opzioni generali di Analisi dei Gruppi di STATISTICA, specificamente progettate per manipolare grandi insiemi di dati e per consentire un'analisi dei gruppi su variabili continue e/o categoriali, e per fornire le funzionalità adatte ad un apprendimento (analisi dei gruppi) supervisionato di variabili continue e/o categoriali, con tutte le opzioni di deployment per l'analisi dei gruppi predittiva. Sono fornite diverse opzioni di validazione incrociata (incluse le opzioni di validazione incrociata v-fold modificata) che sceglierà e valuterà automaticamente la soluzione finale migliore per il problema di analisi dei gruppi; non sarà necessario specificare il numero di gruppi prima dell'analisi; il programma utilizzerà piuttosto i metodi (basati sulla validazione incrociata) automatici per la scelta della migliore soluzione di raggruppamento (numero di gruppi)! La tecnica avanzata di analisi dei gruppi EM disponibile in questo modulo è talvolta chiamata analisi probabilistica dei gruppi o raggruppamento statistico. Il programma raggrupperà le osservazioni sulla base delle variabili continue e categoriali, assumendo differenti distribuzioni per le variabili coinvolte nell'analisi (così come specificate dall'utente). Sono disponibili diverse opzioni per la validazione incrociata che permettono di scegliere e valutare la migliore soluzione finale per il problema di raggruppamento. Vengono calcolati riepiloghi e grafici di output dettagliati (come ad esempio, i grafici delle distribuzioni per l'analisi dei gruppi EM), e statistiche di classificazione dettagliate per ogni osservazione. Tali metodi sono ottimizzati per la gestione di insiemi di dati molto grandi, e sono forniti diversi risultati per facilitare le analisi successive attraverso l'assegnazione delle osservazioni ai gruppi. Sono anche incluse opzioni per il deployment delle soluzioni di raggruppamento (in C, C++, C#, Visual Basic, od in PMML basato sulla sintassi XML) per la classificazione di nuove osservazioni.
     

    Torna al Principio

    MODELLI ADDITIVI GENERALIZZATI (GAM). Le facilitazioni di STATISTICA Modelli Additivi Generalizzati sono un'implementazione dei metodi sviluppati e resi popolari da Hastie and Tibshirani (1990); discussioni aggiuntive dettagliate su questi metodi si possono trovare anche in Schimek (2000). Il programma gestirà variabili predittive continue e categoriali. Si noti che STATISTICA include una selezione esaustiva di metodi per adattare ai dati modelli non lineari, quale il modulo di Stima Non Lineare, Modelli Lineari Generalizzati, Alberi di Classificazione e Regressione Generali, ecc.

    Distribuzioni e funzioni di link. Il programma permette all'utente di scegliere entro un'ampia varietà di distribuzioni per la variabile dipendente, e di funzioni di link per gli effetti delle variabili predittive sulla variabile dipendente:

    Distribuzioni Normale, Gamma, e Poisson:

    Link Log: f(z) = log(z)
    Link Inversa: f(z) = 1/z
    Link Identità: f(z) = z

    Distribuzione Binomiale:

    Link Logit: f(z)=log(z/(1-z))

    Lisciatore di scatterplot. Il programma usa il lisciatore spline cubico con gradi di libertà definiti dall'utente per trovare una trasformazione (funzione) ottima delle variabili predittive.

    Statistiche dei risultati. Il programma riporterà un insieme esaustivo di statistiche dei risultati per aiutare nella valutazione dell'adeguatezza del modello, dell'adattamento del modello e nell'interpretazione dei risultati; nello specifico, i risultati includono: la storia delle iterazioni per i calcoli di adattamento del modello, statistiche riassuntive che includono il valore di R-quadro complessivo (calcolato a partire dalla statistica di devianza) i gradi di libertà del modello, e le statistiche osservazionali dettagliate relative alle risposte previste, ai residui, ed al lisciamento delle variabili predittive. I grafici dei risultati includono i tracciati delle risposte osservate vs. le risposte residue, i valori previsti vs. i residui, gli istogrammi dei valori osservati e dei valori residui, i normal probability plot dei valori residui, ed i grafici dei residui parziali per ogni predittore, indicando l'adattamento della spline cubica per la soluzione finale; per risposte binarie (per es., modelli logit) si possono anche generare i diagrammi lift.

    Torna al Principio

    ALBERI DI CLASSIFICAZIONE E REGRESSIONE GENERALI (GTrees). Questo modulo è una implementazione esaustiva dei metodi descritti come C&RT da Breiman, Friedman, Olshen, and Stone (1984). Tuttavia, il modulo GTrees contiene varie estensioni ed opzioni che non si trovano nelle implementazioni tipiche di questo algoritmo, e che sono particolarmente utili per applicazioni di data mining.

    Interfaccia utente; specificazione dei "modelli." Oltre alle analisi standard (come descritte da Breiman, et al.), l'implementazione di questi metodi in STATISTICA permette di specificare piani in stile ANOVA/ANCOVA con variabili predittive continue e/o categoriali, nonché le loro interazioni. Sono fornite tre interfacce utente interattive che permettono di specificare questi piani; queste sono analoghe ai metodi forniti in GLM (Modelli Lineari Generali), GLZ (Modelli Lineari Generalizzati), GRM (Modelli di Regressione Generali), GDA (Modelli di Analisi Discriminante Generali), e PLS (Modelli ai Minimi Quadrati Parziali Generali), e sono descritte in dettaglio nelle rispettive sezioni. In breve, i piani in stile ANOVA/ANCOVA per i predittori possono essere specificati tramite finestre di dialogo, Wizard, o in sintassi a comandi (del piano); per di più, la sintassi dei comandi è compatibile tra moduli, cosicché si potranno applicare rapidamente piani identici ad analisi molto differenti (per es., confrontare la qualità della classificazione usando GDA vs. GTrees).

    Potatura dell'albero, selezione, validazione. Il programma offre un gran numero di opzioni per controllare la costruzione degli alberi, la potatura degli alberi, e la selezione della soluzione a miglior adattamento. Per variabili dipendenti (criterio) continue, la potatura dell'albero si può basare sulla varianza, oppure sul metodo di potatura in stile FACT. Per variabili dipendenti (criterio) categoriali, la potatura dell'albero si può basare sugli errori di classificazione, sulla varianza o sul metodo in stile FACT. Si può specificare il numero massimo di nodi per l'albero o il valore di n minimo per nodo. Sono fornite opzioni per validare il miglior albero di decisione, usando la validazione incrociata V-fold, oppure applicando l'albero di decisione a nuove osservazioni di un campione di validazione. Per le variabili dipendenti (criterio) categoriali, cioè per problemi di classificazione, si possono scegliere diverse misure per modificare l'algoritmo e per valutare la qualità dell'albero di classificazione finale: sono fornite opzioni per specificare probabilità di classificazione a priori e costi di errata classificazione; le misure di bontà di adattamento includono la misura di Gini, Chi-quadro e G-quadro.


    Dati mancanti e suddivisioni surrogate. I valori di dato mancante nei predittori possono essere gestiti permettendo al programma di determinare le suddivisioni per variabili surrogate, cioè variabili che sono simili alla rispettiva variabile usata per una suddivisione (nodo) specifica.

    Piani in stile ANOVA/ANCOVA. Oltre alla tradizionale analisi in stile C&RT, è possibile combinare variabili predittive continue e categoriali in piani in stile ANOVA/ANCOVA ed eseguire l'analisi usando una matrice di disegno per i predittori. Questa opzione permette di valutare e confrontare modelli complessi per i predittori, nonché la loro efficacia per la previsione e la classificazione usando varie tecniche analitiche (per es., Modelli Lineari Generali, Modelli Lineari Generalizzati, Modelli di Analisi Discriminante Generali, ecc.).


    Visualizzatore albero. Oltre ai semplici grafici ad albero riassuntivi, è possibile visualizzare gli alberi dei risultati utilizzando intuitivi visualizzatori ad albero interattivi, che permettono di espandere o collassare i nodi dell'albero, e di visualizzare rapidamente le informazioni più importanti sul rispettivo nodo o sulla classificazione dell'albero. Per esempio, si può evidenziare (fare clic su) un particolare nodo nel pannello del visualizzatore e vedere immediatamente i tassi di classificazione e di errata classificazione per lo stesso. Il visualizzatore albero è uno strumento molto efficiente ed intuitivo per visualizzare strutture ad albero complesse, usando metodi usati comunemente in applicazioni Windows per visualizzare informazioni strutturate gerarchicamente. Si possono visualizzare simultaneamente diversi visualizzatori di alberi, ciascuno contenente l'albero finale o un sottoalbero potato dall'albero più grande; ponendo fianco a fianco diversi visualizzatori è facile confrontare strutture ad albero e sottoalberi differenti. Il Visualizzatore Alberi di STATISTICA è un'importante innovazione che aiuta nell'interpretazione di alberi di decisione complessi.

    Alberi interattivi. Sono offerte anche opzioni per visualizzare gli alberi interattivamente, usando gli strumenti di brushing grafico di STATISTICA oppure ponendo grandi grafici ad albero in finestre grafiche scorribili in cui i grafici grandi possono essere ispezionati "dietro" una finestra più piccola (scorribile).

    Statistiche dei risultati. Il modulo GTrees di STATISTICA fornisce un numero molto elevato di opzioni di risultati. Sono accessibili risultati riassuntivi per ogni nodo; sono calcolate statistiche descrittive relative alla classificazione, ai costi di classificazione, al guadagno, e via di seguito. Sono anche disponibili sunti grafici unici, che includono gli istogrammi (per problemi di classificazione) per ogni nodo, grafici riassuntivi dettagliati per variabili dipendenti continue (per es., normal probability plot, scatterplot), e grafici delle coordinate parallele per ogni nodo, così da fornire un sunto efficiente delle distribuzioni delle risposte per grandi problemi di classificazione. Come in tutte le procedure di STATISTICA, tutti i risultati numerici possono essere usati come input per altre analisi, permettendo così un'esplorazione rapida ed un'ulteriore analisi delle osservazioni classificate in nodi particolari (per es., si potrebbe usare il modulo GTrees per produrre una classificazione iniziale dei casi, e quindi usare la selezione a migliore sottoinsieme delle variabili in GDA per trovare variabili aggiuntive per possano aiutare nella classificazione).

    Generatori di codice C, C++, STATISTICA Visual Basic, SQL. L'informazione contenuta nell'albero finale può essere rapidamente incorporata nei propri programmi personalizzati o nelle interrogazioni su database tramite le opzioni (opzionali) di generazione di codice C, C++, STATISTICA Visual Basic o di query SQL. Il codice STATISTICA Visual Basic verrà generato in una forma particolarmente adatta per l'inclusione in nodi personalizzati di STATISTICA Data Miner.

    Torna al Principio

    MODELLI CHAID (Chi-square Automatic Interaction Detection) GENERALI. Allo stesso modo dell'implementazione di Alberi di Classificazione e di Regressione GTrees (visto sopra) in STATISTICA, il modulo CHAID Generale fornisce non solo un'implementazione esaustiva della tecnica originale, ma estende questi metodi all'analisi di piani in stile ANOVA/ANCOVA.

    CHAID Standard. L'analisi CHAID può essere eseguita sia per variabili dipendenti (criterio) continue che categoriali. Sono disponibili molte opzioni per controllare la costruzione degli alberi gerarchici: l'utente può controllare il valore di n minimo per nodo, il numero massimo di nodi, e le probabilità per suddividere e riunire le categorie; l'utente può anche richiedere una ricerca esaustiva della migliore soluzione (CHAID Esaustivo); si possono calcolare statistiche di validazione V-fold per valutare la stabilità della soluzione finale; per problemi di classificazione, si possono specificare costi di errata classificazione definiti dall'utente.

    Piani in stile ANOVA/ANCOVA. Oltre all'analisi CHAID tradizionale, è possibile combinare variabili predittive categoriali e continue in piani in stile ANOVA/ANCOVA ed eseguire l'analisi usando una matrice di disegno per i predittori. Ciò permette all'utente di valutare e confrontare modelli predittivi complessi, nonché la loro efficacia nella previsione e nella classificazione usando varie tecniche analitiche (per es., Modelli Lineari Generali, Modelli Lineari Generalizzati, Modelli di Analisi Discriminante Generali, Modelli ad Alberi di Regressione e Classificazione Generali, ecc.). Si veda anche la descrizione di GLM (Modelli Lineari Generali) e Alberi di Classificazione e di Regressione (GTrees), sopra, per avere dettagli.


    Visualizzatore albero. Come per i risultati degli alberi binari usati per riassumere gli alberi di regressione e classificazione binari (si veda GTrees), i risultati dell'analisi CHAID possono essere visualizzati nel Visualizzatore Albero di STATISTICA. Questo unico visualizzato di alberi fornisce uno strumento molto efficiente e intuitivo per visualizzare strutture ad albero  complesse e per confrontare, fianco a fianco, diverse soluzioni ad albero (in diversi visualizzatori d'albero), usando metodi usati comunemente nelle applicazioni Windows per visualizzare informazioni strutturate gerarchicamente. Il Visualizzatore Alberi di STATISTICA è un'importante innovazione che aiuta nell'interpretazione di alberi di decisione complessi. Per avere dettagli aggiuntivi, si veda anche la descrizione del visualizzatore alberi nel contesto degli Alberi di Classificazione e di Regressione (GTrees).

    Statistiche dei risultati. Il modulo STATISTICA Modelli CHAID Generali offre un gran numero di opzioni per la visualizzazione dei risultati. Sono accessibili i risultati riassuntivi per ogni singolo nodo; sono calcolare statistiche descrittive in relazione alla classificazione, ai costi di classificazione, e via di seguito. Sono anche disponibili sunti grafici unici, che includono gli istogrammi (per problemi di classificazione) per ogni nodo, grafici riassuntivi dettagliati per variabili dipendenti continue (per es., normal probability plot, scatterplot), e grafici delle coordinate parallele per ogni nodo, così da fornire un sunto efficiente delle disposizioni delle risposte per grandi problemi di classificazione. Come in tutte le procedure di STATISTICA, tutti i risultati numerici possono essere usati come input per altre analisi, permettendo così un'esplorazione rapida ed un'ulteriore analisi delle osservazioni classificate in nodi particolari (per es., si potrebbe usare il modulo GTrees per produrre una classificazione iniziale dei casi, e quindi usare la selezione a migliore sottoinsieme delle variabili in GDA per trovare variabili aggiuntive per possano aiutare nella classificazione).

    ALBERI DI CLASSIFICAZIONE E REGRESSIONE INTERATTIVI. In aggiunta ai moduli per la costruzione automatica di alberi (come ad esempio, gli Alberi di Classificazione e di Regressione Generali, i Modelli CHAID Generali), STATISTICA Data Miner include anche strumenti progettati per la costruzione di tali alberi interattivi. È possibile scegliere il metodo (binario) ad Alberi di Classificazione e di Regressione Generali od il metodo CHAID per la costruzione di alberi (decisionali), che accresce l'albero ad ogni step o interattivamente (attraverso la scelta della variabile e del criterio di suddivisione) o automaticamente. Durante la crescita interattiva degli alberi, si ha il totale controllo su tutti gli aspetti di come selezionare e valutare i candidati per ogni suddivisione (split), di come categorizzare l'intervallo di variazione dei valori contenuti nei predittori, ecc. Gli strumenti altamente interattivi disponibili per questo modulo permettono di crescere e potare gli alberi all'indietro per valutare rapidamente la qualità dell'albero per la previsione di classificazione o di regressione e per il calcolo ad ogni stadio di tutte le statistiche supplementari finalizzate alla totale esplorazione della natura di ogni soluzione. Tale strumento è estremamente utile per il data mining predittivo così come per l'analisi esplorativa dei dati (EDA), ed include l'insieme completo di opzioni per il deployment automatico, per la previsione o per la classificazione prevista delle nuove osservazioni (si veda anche la descrizione di tali opzioni nel contesto del CHAID e dei moduli Alberi di Classificazione e Regressione Generali).

    ALBERI BOOSTED. Le ricerche più recenti in ambito statistico e di algoritmi di apprendimento macchina suggeriscono che per alcuni "problematici" task di stima e di previsione (classificazione prevista), l'utilizzo in successione di semplici alberi boosted può produrre previsioni più accurate rispetto all'applicazione di architetture di reti neurali o di singoli alberi complessi. STATISTICA Data Miner include un modulo ad Alberi Boosted per l'applicazione di questa tecnica per prevedere task di data mining. Sono forniti il controllo totale su tutti gli aspetti della procedura di stima e riepiloghi dettagliati ad ogni stadio delle procedure di stima in modo che nei passi successivi il progresso dell'analisi possa essere monitorato e valutato. I risultati includono le statistiche riassuntive standard per la classificazione e la regressione prodotte dal modulo Alberi di Classificazione e Regressione Generali. Sono presenti anche metodi automatici per il deployment della soluzione finale ad albero boosted per previsioni di classificazione e di regressione.

    SPLINE DI REGRESSIONE ADATTABILI MULTIVARIATE. Il modulo Spline MAR (Spline di Regressione Adattabili Multivariate) è basato su un'implementazione completa di questa tecnica, come originariamente proposto da Friedman (1991; Spline di Regressione Adattabili Multivariate, Annals of Statistics, 19, 1-141); in STATISTICA Data Miner, le opzioni di Spline MAR sono state ulteriormente migliorate per risolvere problemi di regressione e di classificazione, con predittori continui e categoriali.

    Il programma, che in termini di sue funzionalità può essere considerato una gereralizzazione ed una modifica di Alberi di Regressione e Classificazione Multipli (GC&RT) stepwise, è programmato (ottimizzato) particolarmente per l'elaborazione di insiemi di dati molto grandi. È disponibile un grande numero di opzioni di risultati e di diagnostiche estese che consente di valutare numericamente e graficamente la qualità della soluzione a Spline MAR.

    Generatori di codice in C/C++, C#, in STATISTICA Visual Basic, in PMML basato sulla sintassi XML. L'informazione contenuta nel modello può essere velocemente incorporata nei propri programmi personalizzati attraverso l'utilizzo delle opzioni del generatore di codice in C/C++/C#, in STATISTICA Visual Basic, od in PMML (linguaggio basato sulla sintassi XML). STATISTICA Visual Basic sarà generato in una forma particolarmente adatta per essere inclusa in nodi personalizzati per STATISTICA Data Miner. I file PMML (Predictive Models Markup Language) con informazioni di deployment possono essere usati con opzioni di Deployment Rapido di Modelli Predittivi per produrre molto efficacemente previsioni di grandi numeri di casi; i file PMML sono completamente portabili, e l'informazione di deployment generata attraverso la versione desktop di STATISTICA Data Miner può essere usata in WebSTATISTICA Data Miner (cioè, sul lato client delle installazioni Client-Server), e vice versa.

    CALCOLI DELLA BONTA' DI ADATTAMENTO. Il modulo Bontà Adattamento di STATISTICA produrrà varie statistiche relative alle statistiche sull'adattamento delle variabili di risposta continue e categoriali (per problemi di regressione e di classificazione). Questo modulo è specificamente progettato per applicazioni di data mining da includere nei progetti per la "valutazione competitiva dei modelli" come uno strumento per la scelta della soluzione migliore. Come input il programma utilizza i valori previsti o le classificazioni così come sono state calcolate a partire da un qualsiasi modulo di STATISTICA per la regressione e la classificazione, e calcola una grande selezione di statistiche di adattamento così come riepiloghi grafici per ogni risposta adattata o classificazioni. Le statistiche sulla bontà d'adattamento per le risposte continue includono la deviazione ai minimi quadrati (LSD), la deviazione media, l'errore quadratico relativo, l'errore assoluto relativo, ed il coefficiente di correlazione. Nei problemi di classificazione (per variabili di risposta categoriali), il programma calcolerà le statistiche Chi-quadro, G-quadro (chiquadro di massima verosimiglianza), la perdita quadratica, la perdita d'informazione.

    DEPLOYMENT RAPIDO DI MODELLI PREDITTIVI. Il modulo Deployment Rapido di Modelli Predittivi permette di caricare uno o più file PMML (Predictive Models Markup Language) con informazioni di deployment, e di produrre molto velocemente (in un singolo passaggio attraverso i dati) previsioni di grandi numeri di osservazioni (per uno o più modelli). I file PMML possono essere generati da praticamente tutti i moduli dedicati al data mining predittivo (così come le opzioni di Analisi dei Gruppi EM e k-Means Generalizzati). PMML è un insieme di convenzioni di sintassi industriale standard basato su XML (Extensible Markup Language), particolarmente adatto a consentire la condivisione di informazioni di deployment in un'architettura Client-Server (ad esempio, via WebSTATISTICA).  

    Le opzioni contenute in Deployment Rapido di Modelli Predittivi forniscono i metodi più veloci e più efficienti per il calcolo delle previsioni a partire da modelli totalmente addestrati. Tutti i modelli sono pre-programmati in forma generica in un programma altamente ottimizzato e compilato; il codice PMML fornisce soltanto le stime parametriche ecc. per i modelli totalmente addestrati, e permette al programma Deployment Rapido di Modelli Predittivi di produrre previsioni o classificazioni previste (o assegnazione dei gruppi) in un singolo passaggio attraverso i dati.

    Infatti, è molto difficile "battere" la prestazione (velocità di calcolo) di questo strumento, anche se si sta scrivendo un proprio codice compilato in C++, basato sul codice di deployment generato (in C, C++, od in C#) dai rispettivi modelli.

    Si noti che il modulo Deployment Rapido di Modelli Predittivi calcolerà automaticamente statistiche descrittive per ogni modello, e se sono disponibili valori osservati o classificazioni, il programma calcolerà automaticamente gli indici di bontà d'adattamento per i modelli partecipanti, inclusi i diagrammi Gains and Lift per uno o più modelli (overlaid lift and gain charts), per problemi binari o di classificazione multinomiali (multi-categoriali).

    Torna al Principio

    La Versione Client-Server di STATISTICA Data Miner e Data Mining Attraverso WebSTATISTICA

    Nella versione desktop di STATISTICA Data Miner, tutti i calcoli sono eseguiti sul computer locale, e le risorse degli altri computer vengono utilizzate solo nel caso in cui viene stabilita un'Elaborazione In-Loco di Database (IDP) a database esterni. IDP è una tecnologia che legge i dati in modo asincrono direttamente dai server di database remoti (attraverso un'elaborazione distribuita se supportata dal server), e che permette di evitare l'"importazione" dei dati e la creazione di una copia locale degli insiemi di dati. Record di dati sono recuperati e spediti al computer di STATISTICA asincronicamente dalla CPU del server di database, mentre STATISTICA li elabora simultaneamente attraverso la CPU del computer locale.

    L'Architettura Client-Server. Quando si usa una versione Client-Server di STATISTICA Data Miner, il computer locale guida soltanto l'interfaccia utente di Data Miner, mentre tutti i calcoli vengono eseguiti sul server. Un'architettura Client-Server che utilizza l'avanzata tecnologia di elaborazione multi-coda e distribuita (si veda sotto) e che opzionalmente può essere scalata su più server operanti in parallelo, offre ovvi vantaggi qualora i propri progetti di data mining siano grandi (ad esempio, computazionalmente intensivi o per i quali è necessaria l'elaborazione di insiemi di dati estremamente grandi).

    Tecnologia di Elaborazione Distribuita Multicoda. Sono offerti molti vantaggi dalla specifica implementazione dell'architettura Client-Server in STATISTICA Data Miner, la quale è basata sulla tecnologia di WebSTATISTICA. La piattaforma di WebSTATISTICA è costruita su avanzata tecnologia di elaborazione distribuita e multi-coda per supportare la gestione ottimale di grandi caricamenti di calcoli. Tale tecnologia consente una rapida elaborazione di progetti anche molto grandi e computazionalmente intensivi, sfruttando le CPU multiple presenti su server, o anche server multipli operanti in parallelo.

    In aggiunta, l'architettura di WebSTATISTICA fornisce un'interfaccia utente indipendente dalla piattaforma e basata sul Web browser, e presenta una capacità elevatissima e ad alto livello enterprise di gestione dei progetti o dei gruppi di utenti situati all'interno di uno stesso stabili od in luoghi diversi al mondo.

    Interfaccia Utente di WebSTATISTICA Data Miner. L'implementazione WebSTATISTICA di STATISTICA Data Miner consente agli utenti di progettare, modificare, creare progetti di data mining su una macchina client in un'interfaccia Web browser che è essenzialmente identica a quella disponibili per l'installazione desktop.

    Per questa ragione, il lato client dell'applicazione (il "front end") può essere lanciato su qualsiasi computer (anche un portatile) sempre che questo sia connesso ad Internet. Tuttavia, i calcoli reali e le altre operazioni eseguite sui dati rimarranno sul server (remoto) con i suoi usualmente potenti processori e le sue potenti risorse d'immagazzinamento (e saranno gestiti attraverso l'architettura di elaborazione ottimizzata, multicoda e distribuita del sistema per una prestazione massima).

    In definitiva, gli aspetti dell'interfaccia utente di STATISTICA Data Miner possono essere lanciati da uno o più utenti da qualsiasi computer al mondo (sempre che questi siano connessi ad Internet, anche con una connessione lenta), mentre i server eseguono tutti i calcoli e le operazioni sui dati, rafforzando la sicurezza ed i privilegi d'accesso applicabili ai rispettivi progetti e classi di utenti, così come progettato dall'amministratore di rete.

    Torna al Principio
    Richiedi Prezzi
    StatSoft Home Page



  • [StatSoft]
    Via Parenzo 3 - 35010 Vigonza (Padova)
    Tel: 0498934654; Fax: 0498932897

    [StatSoft]e-mail: info@statsoft.it

    ©Copyright StatSoft Italia srl, 1984-2009.
    StatSoft, StatSoft logo, STATISTICA, STATISTICA Enterprise/QC, STATISTICA Enterprise, Data Miner, SEPATH and GTrees are trademarks of StatSoft, Inc.