STATISTICA
Contattaci
Prodotti / Soluzioni

Data Mining

Data Mining

Cos'è il Data Mining?

Il data mining coniuga  analisi statistica, scienze informatiche, intelligenza artificiale, pattern recognition apprendimento automatico (machine learning), gestione di database e visualizzazione dei dati (per citare solo alcuni dei campi d'interesse).

Il data mining consiste in un processo di identificazione di comportamenti o modelli validi, nuovi, potenzialmente assai utili, ed altamente comprensibili da associare ai dati quando si tratta di prendere decisioni cruciali. Il data mining non è un prodotto che può essere acquistato. Il data mining rappresenta una disciplina ed un processo da adottare in ogni fase dell'intero ciclo di risoluzione del problema.

La parte principale del data mining consiste nell'analisi dei dati e nell'utilizzo di tecniche specifiche per l'individuazione delle eventuali regolarità ed andamenti che caratterizzano gli insiemi di dati disponibili. L'idea è che sia possibile estrarre informazioni prezione anche da "zone inaspettate del proprio spazio informativo", proprio perché lo scopo principale dei software di data mining è riuscire ad estrarre informazioni prima non immediatamente riconoscibili. Una volta acquisita l'informazione, questa potrà venire estesa ad insiemi più grandi di dati.


Differrenze tra l'applicazione di tecniche statistiche tradizionali ed il data mining?

Mentre l'analisi statistica tradizionale ha come scopo principale la verifica di specifiche ipotesi di ricerca applicate ai dati appena raccolti ('analisi primaria dei dati'), il data mining può essere inteso come un'operazione da applicare secondariamente ai dati allo scopo di perseguire altri obiettivi ('analisi secondaria dei dati'). Inoltre, i dati possono essere di tipo sperimentale (si pensi ad esempio ad un esperimento in cui tutte le unità statistiche vengono assegnate casualmente a diversi tipi di trattamento), oppure di tipo osservazionale. È in quest'ultimo caso che può venire applicato il data mining.


Il Data Warehousing dota l'impresa di memoria

Le aziende raccolgono dati in continuazione e per qualsiasi aspetto dell'attività aziendale. Un'azienda, ad esempio, operante nel settore della vendita al dettaglio sarà verosimilmente interessata a registrare tutti gli eventi generati dall'interazione tra la clientela ed i suoi singoli reparti (chiamate al supporto clienti, transazione eseguita in corrispodenza ad ogni punto vendita, ordini da catalogo, numero di visite al sito web aziendale, ecc.), e a considerarla come un'opportunità per acquisire conoscenze. I dati infatti possono essere raccolti ad esempio per un controllo d'inventario o per una chiusura di cassa. Una volta fatto ciò, i dati rimangono caricati in memoria oppure cancellati. Il valore nascosto dei dati viene nella maggior parte dei casi perduto. Perchè così non avvenga, per prima cosa sarà necessario raccogliere i dati provenienti da molte sorgenti (come ad esempio, le registrazioni di cassa, i dati scannerizzati, i form di registrazione, le applicazioni, la restituzione di coupon, i dati sulla produzione) ed organizzarli in modo utile e consistente - secondo una modalità che favorisca l'estrazione delle informazioni da utilizzare per propositi analitici. Questo processo è noto come data warehousing. Il data warehousing consente all'impresa di "ricordare" tutto ciò che riguarda i clienti e gli aspetti chiave di ogni attività in ogni passaggio della vita produttiva della stessa. Il data warehousing dota l'impresa di memoria.


Il Data Mining dota l'impresa d'intelligenza

La memoria è niente senza l'intelligenza. L'intelligenza ci permette di combinare le nostre memorie in modo da individuare andamenti, tendenze, regole sistematiche, nuove idee da applicare al proprio business, e soluzioni per la realizzazione di previsioni future. I dati devono essere analizzati, compresi e trasformati in informazione subito utilizzabile. Attraverso un insieme di strumenti e tecniche di data mining progettati per aggiungere intelligenza al data warehouse, sarà possibile esplorare vaste quantità di dati relativi, ad esempio, alla risposta dei clienti una volta sottoposti a diverse tipologie d'impulso generato dall'impresa. Di seguito vengono riportate alcune delle tipiche domande che un responsabile di un'azienda operante nel settore della vendita al dettaglio potrebbe porsi:

  • Quali clienti risponderanno con maggiore probabilità ad un'operazione di mailing?
  • Vi sono gruppi (segmenti) di clienti con caratteristiche o comportamenti simili?
  • Esistono relazioni interessanti tra le caratteristiche dei clienti?
  • Chi, più verosimilmente, rimarrà un cliente fedele e chi smetterà di esserlo?
  • Su quali prodotti o servizi occorre puntare?

Spesso le risposte a tali domande rimangono senza risposta e nascoste all'interno dei dati aziendali; tuttavia attraverso gli strumenti di data mining sarà possibile estrarle e trasformare le informazioni relative alla clientela in "oro colato" per l'impresa. Il data mining dota l'impresa d'intelligenza. Le aziende possono impiegare il data mining per prendere decisioni redditizie ed immediate e avvantaggiarsi notevolmente rispetto ai concorrenti.

Attraverso il data mining, le imprese possono, ad esempio, analizzare i comportamenti passati dei clienti con l'obiettivo di prendere decisioni strategiche per il futuro. Si tenga tuttavia a mente che le tecniche e gli strumenti di data mining sono ugualmente applicabili in diversi campi d'attività, dall'astronomia e dalla fisica, all'economia, alla medicina, al controllo di processo industriale, ecc.

Contattateci per discutere insieme su come il data mining può essere applicato alla vostra area di lavoro. StatSoft vi aiuterà.


I pregiudizi riguardanti il Data Mining si scontrano con la realtà dei fatti

Spesso viene detto a sproposito che l'adozione del data mining sia esagerata, porti a risultati incompleti od errati. Il data mining ha dato una sferzata al mondo del business, ma così come per molte nuove tecnologie, sembra esistere una relazione diretta tra i suoi potenziali benefici e la quantità di pregiudizi (spesso) contraddittori circa i suoi punti deboli e i suoi punti di forza. Quando si intrapprende un progetto di data mining, è sempre opportuno evitare una catena di aspettative poco realistiche per poi non rimanere delusi. Attenersi ai fatti ed essere coscienti della potenza dei mezzi utilizzati è la via sicura che porta al successo. Di seguito vi è un prospetto in cui vengono confrontati i più comuni pregiudizi riguardanti il Data Mining con la realtà dei fatti:

Pregiudizi Fatti
Il Data Mining trasforma completamente il proprio business Il Data Mining dev'essere inteso più che altro come una pratica atta a fornire all'impresa miglioramenti sempre crescenti 
Il Data Mining tende a sostituire l'esperienza degli analisti
Indipendentemente dai metodi impiegati, è impossibile costruire modelli efficaci senza un'adeguata esperienza da parte dell'analista

Il Data Mining individua modelli e comportamenti senza che ad esso venga "comunicato" cosa trovare

Gli algoritmi di Data Mining devono essere indirizzati verso obiettivi specifici

Il Data Mining è utile soltanto in alcune aree quali ad esempio il marketing, l'analisi delle vendite e le analisi applicate al settore delle assicurazioni

Attraverso il Data Mining è virtualmente possibile studiare, comprendere e migliorare qualsiasi tipo di processo analitico
Il Data Mining si basa solo su algoritmi. Tutto ciò che occorre sono buoni algoritmi. Migliori saranno gli algoritmi, migliore sarà il tuo Data Mining.
Il Data Mining è un processo consistente di molti elementi, quale la formulazione degli obiettivi di business, la mappatura degli obiettivi di business e loro adattamento all'interno di un progetto di Data Mining, acquisizione, comprensione e pre-elaborazione dei dati, valutazione e presentazione dei risultati dell'analisi e loro distribuzione all'interno dell'impresa

Il Data Mining è fondamentalmente differente dalle tradiziona tecniche (statistiche)
Le tecniche di Data Mining sono estensioni dei metodi tradizionali
Il Data Mining è un processo estremamente complesso Gli algoritmi di Data Mining potrebbero essere complessi, ma nuovi strumenti hanno reso la loro applicazione molto agevole
Il Data Mining richiede un data warehouse
È vero che il Data Mining esprime il meglio in presenza di dati immagazzinati in un data warehouse, e quindi quando questi sono bene organizzati e relativamente puliti e facilmente accessibili.
Se così non è, tuttavia talvolta i dati residenti in un data warehouse possono risultare meno utili di semplici sorgenti di dati operazionali.
Nel peggiore dei casi, infatti, i dati residenti in un data warehouse possono risultare assolutamente inutili (si pensi ad esempio a quando vengono immagazzinati solo risultati riassuntivi).
Il Data Mining può essere applicato in presenza di qualsiasi tipo di dato
È vero che il Data Mining consente la gestione di tipi pressoché illimatati di dati; tuttavia occorre tenere bene presente che, affinché il processo di analisi sia efficace, è sempre necessario dedicare grandi energie alla pulitura, al bilanciamento e alla preparazione dei dati
Solo in presenza di grandi database è possibile effettuare un Data Mining efficace
Anche insiemi di dati di modeste dimensioni possono fornire informazioni utili.
Molti validi progetti di Data Mining vengono applicati ad insiemi di dati di piccole o medie dimensioni - alcuni contenenti ad esempio solo poche centinaia o migliaia di record

Il Data Mining è più efficace in corrispondenza di un maggior numero di dati, quindi all'interno del progetto di Data Mining dovrebbero essere "portati" tutti i dati disponibili

L'utilizzo di un maggior numero di dati è utile solo se ciò contribuisce all'ottenimento di maggiori informazioni.
Altrimenti considerare tutti i dati disponibili può essere inutile e dannoso
Il Data Mining dovrebbe essere gestito da esperti in scienze informatiche e tecnologiche
Quando eseguito da utilizzatori privi di alcuna conoscenza del business d'interesse, il data mining può produrre risultati senza senso o inutili
. Quindi è essenziale che il data mining venga eseguito da qualcuno che abbia conoscenze approfondite del particolare problema di business.
Assai raramente nell'azienda, questa persona è la stessa ad avere approfondite conoscenze in campo informatico e tecnologico.
Il Data Mining è un'altra moda che presto sparirà, lasciando il posto alle pratiche statistiche tradizionali
Sebbene con nomi diversi, il Data Mining, come applicazione vitale nel ciclo delle attività aziendali, non perderà mai d'importanza
 

Il data mining non può essere ignorato - i dati sono lì, i metodi sono numerosi, ed i vantaggi derivanti dalla scoperta d'informazioni utili sono enormi. Le aziende in cui i metodi di data mining sono soggetti a "pregiudizi" si troveranno sempre in serio ritardo competitivo rispetto a quelle aziende che invece hanno un approccio razionale nei confronti dell'argomento.

'Il segreto del successo è conoscere cose che nessun altro conosce'
Aristotle Onassis


Data Mining made by StatSoft Consulting

Qui è dove può venirti in aiuto StatSoft. Noi, in quanto esperti in scienze informatiche ed in statistica, vi offriremo quanto di più completo per la realizzazione del vostro data mining statistico.

Risparmiate risorse e denaro investiti nelle principali aree d'interesse, e delegate il lavoro di data mining a consulenti professionisti. Rivolgetevi a StatSoft.

Siete interessati ai nostri servizi di data mining? Avete domande da rivolgerci? Contattateci, e consentiteci di aiutarvi da subito.


Data Mining e STATISTICA Data Miner

Uno dei prodotti di punta commercializzati da StatSoft è STATISTICA Data Miner . Questo prodotto viene utilizzato nel mondo come piattaforma ottimale per ogni operazione di Data Mining che si desidera applicare al proprio problema di business. STATISTICA Data Miner consente di costruire un vero e proprio progetto di Data Miner attraverso l'impiego di uno spazio di lavoro facile da usare ed estremamente user-friendly.







  

Di seguito alcune delle principali caratteristiche di STATISTICA Data Miner :

  • STATISTICA Data Miner contiene la selezione più completa di metodi di data mining disponibile sul mercato (ad esempio, la selezione più completa di tecniche di raggruppamento, architetture di reti neurali, alberi di classificazione/regressione, modellazione multivariata (incluse le Spline MAR), e molte altre tecniche predittive; la più grande selezione di procedure grafiche e di visualizzazione rispetto a qualsiasi prodotto concorrente);
  • Una selezione di progetti (soluzioni) di data mining comprensivi, completi, pronti da eseguire, ed impostato per la valutazione di modelli alternativi (tramite operazioni di bagging (voting, averaging), boosting, spiegamento, meta-apprendimento, ecc.), e per la produzione di report riassuntivi in qualità di presentazione;
  • Un'interfaccia utente basata sul copia-e-incolla estremamente facile da usare, che può essere usata anche dagli utenti meno esperti, ma che è allo stesso tempo altamente flessibile, personalizzabile, e fornisce accesso con un clic a tutti gli script sottostanti.
  • Potenti strumenti per l'esplorazione interattiva dei dati (drill-down, generatore di stratificazione, di ipercubi, ecc.), inclusa la selezione più completa di strumenti di visualizzazione dei grafici interattivi ed esplorativi disponibili sul mercato.
  • Possibilità di gestire/elaborare simultaneamente più flussi di dati;
  • Ottimizzato per l'elaborazione di insiemi di dati estremamente grandi (incluse le opzioni per effettuare un pre-screening di anche oltre un milione di variabili, e/o per estrarre campioni casuali stratificati o semplici record attraverso le procedure di campionamento casuale DIEHARD-certificate);
  • Accesso di lettura (e scrittura) altamente ottimizzato a grandi database, inclusa la tecnologia IDP (In-Place Database Processing) che legge i dati direttamente e asincronicamente dai server remoti di database (attraverso l'elaborazione distribuita se supportata dal server), ed evitando l'"importazione" dei dati e la creazione di una copia locale;
  • Motore di sviluppo flessibile, integrato con l'ambiente di sviluppo personalizzato, che permette di gestire oggetti (nodi) analitici ottimizzati per il data mining attraverso l'impiego di script veloci, industrali standard, in Visual Basic (VB è integrato nel sistema);
  • Deployment estremamente veloce ed efficiente attraverso la sintassi portabile di XML, basata su file PMML (Predictive Models Markup Language) per la previsione, per la classificazione predittiva, o per il raggruppamento predittivo di grandi file di dati; i modelli addestrati possono essere condivisi tra le installazioni desktop e WebSTATISTICA Data Miner (Client-Server) (si veda sotto);
  • Opzioni per la scrittura dei valori previsti, delle classificazioni, delle probabilità di classificazione, dei residui di previsione, e così via direttamente all'interno dei database esterni per analisi successive, selezioni, ecc.; attraverso l'efficiente tecnologia IDP (In-Place Database Processing) per la lettura e la scrittura di informazioni da/a database esterni, è possibile analizzare insiemi di dati estremamente grandi (usati per l'aggiornamento dei valori previsti, delle probabilità di classificazione, ecc., all'interno del database);
  • Architettura COM aperta, opzioni di automazione illimitate, e supporto per estensioni personalizzate (attraverso VB (integrato), Java, o C/C++/C#);
  • Opzioni desktop o Client-Server
  • L'architettura di elaborazione multi-coda e distribuita permette una prestazione incomparabile (offerta nella versione Client-Server) inclusa la tecnologia di elaborazione parallela simile a quella dei super-computer che scala opzionalmente su più computer server che possono lavorare in parallelo per la elaborazione di progetti computazionalmente intensivi.
  • Opzioni di abilitazione al Web complete (attraverso WebSTATISTICA , che offre supporto per tutte le operazioni di data mining, inclusa la costruzione interattiva dei modelli, attraverso l'utilizzo di un browser Internet di un computer connesso al Web); Questo sistema enterprise evolutissimo di analisi/mining permette di gestire i progetti su Web e di lavorare in gruppo all'interno di uno stesso stabilimento o attraverso i continenti.

Se siete interessati a saperne di più circa alcune delle applicazioni di STATISTICA Data Miner potete consultare alcune delle e-mail tip passate:


 

 
©Copyright StatSoft Italia srl, 1984-2009.
StatSoft, StatSoft logo, STATISTICA, STATISTICA Enterprise/QC, STATISTICA Enterprise, Data Miner, SEPATH and GTrees are trademarks of StatSoft, Inc.