[BigData] Il Big Data Forum 2012 a Roma: le soluzioni ICT per un vantaggio competitivo

Il 21 Novembre scorso si è tenuta a Roma la 2° edizione del Big Data Forum, dallo slogan “Big Data Forum 2012: per fare chiarezza sul fenomeno dell’esplosione dei dati e scoprire le soluzioni ICT che consentono di trasformarlo in vantaggio competitivo“.

L’evento, pubblicizzato da ICT4Executive, con partner di eccezione come Microsoft, Oracle e Informatica Software, è stato condotto da relatori di riguardo, particolarmente distinti sia nel campo della ricerca ICT (in particolare, nella Business Intelligence), che in quello strategico aziendale.

Ho partecipato all’evento e vi riporto un resoconto dettagliato delle tematiche affrontate ed estrapolate dagli interventi dei relatori presenti.

 

La Big Data Analysis

Il moderatore Carlo Vercellis, responsabile dell’Osservatorio di Business Intelligence & Big Data Analytics e professore alla School Management del Politecnico di Milano, ha sottolineato che il BigData è un tema di attualità molto in voga nell’ultimo periodo, come il cloud computing del resto, ma che da fenomeno del momento deve trasformarsi in innovazione tecnologica, in grado di cambiare gli attuali schemi e paradigmi del modo di trattare le informazioni su Internet.
Come non citare lo slogan di Tim Berners-LeeROW DATA, NOW!“. Dati grezzi da trattare, che sono diventati (e diventeranno ancora) troppi e dai cui è difficile poter estrarre informazione. Un fenomeno di cui si vocifera particolarmente nell’ultimo periodo, visti gli impegni delle varie iniziative di Open Data e eGov, che “impongono” ai detentori illegittimi di dati (ndr. come pubbliche amministrazioni) di distribuire informazioni di proprietà dei cittadini.

 

I dati diventano “interessanti” solo se siamo capaci di estrarre da essi un contenuto utile, da trasformare in servizio per gli utenti finali.

 

L’attenzione ricade sulla Big Data Analysis (la naturale estensione della Business Intelligence), intesa come il settore, o possiamo definire “scienza”, che studia le metodologie, sia tecniche che etico-sociali, di estrazione di informazione da una grande quantità di dati. Il termine Big Data è sì inteso come “grande quantità di dati”, ma anche come una loro distribuzione su scala mondiale, eterogeneità delle fonti e difficile accesso alle informazioni intrinseche dei dati stessi. Da qui l’esigenza di organizzarli in un certo modo, per renderli fruibili senza vincoli tecnologici, spaziali e temporali. Il dato/informazione va raccolto, elaborato (velocemente) e trasformato.

 

Per poter attuare la Big Data Analysis, occorre una mirata individuazione di algoritmi/modelli predittivi particolarmente sofisticati, che non operino soltanto con l’ausilio della statistica. Particolare interesse è, dunque, rivolto agli Analytics. Per far sì che l’informazione estratta da questa enorme quantità di dati sia di “buona qualità”, occorre dar in pasto a tali modelli/algoritmi più dati possibili, farne elaborazioni complesse, filtrare tutti quelli che risultano inutili. Per far ciò, ovviamente, occorre anche un hardware che sia dimensionato adeguatamente, in termini di risorse di spazio e di velocità di elaborazione.

I flussi di informazione nel Big Data

Nel “calderone” del Big Data ricadono informazioni strutturate (come quelle derivanti da fonti aziendali, organizzate in archivi, database, file, ecc.), semi-strutturate e non-strutturate (come email, testi, immagini, ecc.).
Tali informazioni, in formato elettronico ovviamente, sono quelle che vengono trasferite quotidianamente e ad altissima frequenza nelle seguenti direzioni:
  • People to People: scambi di messaggi da persona a persona, come avviene sui social network, quando si spedisce una mail ad un destinatario, e così via;
  • Machine to Machine: messaggi che vengono scambiati da processi in esecuzione su macchine e che sono frutto di una elaborazione;
  • People to Machine: tipico scambio di messaggi derivante dall’uso di strumenti telematici per l’esecuzione di servizi di tutti i giorni, come avviene nell’ambito transazionale;
  • Enterprise Data: le informazioni memorizzate negli archivi aziendali, magari trattate da data warehouse per l’analisi;
  • Public Sector: tutte le informazioni che vengono trasmesse nel settore pubblico, previa servizi al cittadino o per l’organizzazione interna di una pubblica amministrazione.

Il Data Scientist: il mestiere più sexy del XXI secolo

Le figure tecniche che operano nella Big Data Analysis possono avere competenze non puramente informatiche. Sono i cosiddetti data scientist, richiestissimi in USA: basta considerare l’ultima campagna elettorale del presidente Obama, il quale si è affidato ai data scientist per attuare una sentiment analysis  e capire il grado di soddisfazione/insoddisfazione degli americani. Si stima che solo in America per il mestiere del data scientist ci siano almeno 2 milioni di posti di lavoro e sia considerato il lavoro più sexy del XXI secolo.

Le 5 “V” del Big Data

Ecco di seguito le problematiche con cui ci si scontra quando si parla di Big Data:
  • Volume: estrazione di informazione da una enorme mole di dati;
  • Velocità: l’estrazione deve avvenire velocemente su “dati freschi” e, dunque, deve essere “real time”, ossia renderli fruibili prima che diventino inutili e averli prima possibile per prendere una “decisione”;
  • Varietà: i dati da trattare sono eterogenei (sia strutturati che non-strutturati);
  • Variabilità: le stesse informazioni hanno significato differente a seconda del contesto e del “luogo virtuale” in cui vengono reperite. Occorre contestualizzare il dato, in modo da capire se è indispensabile filtrarlo o meno;
  • Viralità: i Big Data sono in continua crescita e nella rete Internet esistono delle vere e proprie “regioni buie” da dove estrarre informazioni, le quali si espandono a “macchia d’olio” come un vero e proprio virus.

Le cifre e le applicazioni del Big Data

Di seguito, alcuni degli interessanti quesiti estrapolati dall’intervento di Vercellis:
  • Di che cifre si parla, in termini di spazio dati occupato? Nel 2012, è stato stimato che lo spazio occupato dal Big Data ammonti a 2.7 ZettaByte e che nel 2015 diventerà tre volte più grande.
  • Dove trova applicazione la scienza del Big Data? Si potrebbe rispondere: “Ovunque!”. Attualmente sono già stati avviati progetti nei settori della Finanza, del Marketing, della Telemetria e della Pubblica Amministrazione.
  • Qual è la tendenza tecnologica attualmente adottata? Quella di acquisire e filtrare i dati, elaborarli e inserirli nei Data Warehouse Management System, per poterli organizzare, analizzare con strumenti sofisticati e trarne conclusioni per guidare i processi decisionali (Business Intelligence Tools & Analytics).

La strategia operativa della McKinsey

Il secondo relatore della conferenza è stato Tommaso Cohen, della McKinsey Italia, che ha definito il fenomeno del Big Data come la prossima frontiera per l’innovazione, la competizione e la produttività. La McKinsey si sta mostrando particolarmente attiva per la definizione di strategie operative di Big Data per le aziende.

 

Ma che differenza c’è rispetto al Data Analytics che si conduceva fino a qualche tempo fa, visto che comunque, in ambito aziendale, per guidare i processi di business si sono da sempre adottate tecniche di data mining e data warehousing? La differenza sta nella “scala” dei dati: i Big Data sono distribuiti sulla rete e sono eterogenei tra loro. Quindi, si ha  una maggiore “esigenza” di velocità di elaborazione e le problematiche di spazio, costo ed accesso diventano più evidenti.

 

Nella visione aziendale del Big Data, occorre individuare:
  • integrate internal data (dati interni aziendali);
  • external data source (dati strutturati o non-strutturali esterni all’azienda);
  • analytics tools and models (strumenti/modelli per poterli analizzare ed estrarne informazione utile).

 

Esempi di progetti di successo nell’ambito del Big Data. Cohen ha portato l’esempio di iniziative di successo: Zillow (agenzia immobiliare), Demyst.data (agenzia che effetta analisi realtime su interessi di consumo e delinea profili di consumatori per scopi di marketing ), Mastercard Advisors (il settore telematico interno di Mastercard che analizza i dati delle transazioni dei merchants, per fare indagini di mercato, sentiment analysis e altro).
Secondo la McKinsey, in Italia, sono già nate società che integrano i dati della Sanità, operazione necessaria visti i tagli attuati negli ultimi anni in tal settore. L’obiettivo è quello di registrare la cartella clinica di ciascun paziente e permetterne la memorizzazione e condivisione tra i vari centri medici, riducendo costi e tempi.

 

Best Practices per il Big Data in azienda. Per poter investire nel Big Data, un’azienda deve possedere, o dotarsi, delle seguenti core capabilitiesTalents, Leadership & Incentives, Partnerships, Organization Structure & Governance, Data Tools & Analytics, Culture. Ecco a cosa ci si riferisce:
  • occorre avere una forte ispirazione e motivazione in azienda per intraprendere un investimento nei Big Data;
  • Organization Structure & Governance. L’azienda deve essere pronta a subire un po’ di cambiamenti nel proprio assetto organizzativo, predisponendo un’area ad hoc che si occupi di questa tematica (Governance), e che si prenda la responsabilità della “qualità” del dato, condividendo gli “aims” del Big Data con tutte le aree di business interne;
  • Talents. Occorrono competenze interne che abbiano uno skill non prettamente specialistico, ma con una ottima base analitica. Non solo informatici, ma anche matematici in grado di applicare modelli/algoritmi per l’analisi dei dati (data scientist, di cui sopra);
  • Partnerships. I progetti di Big Data e i dati estratti/analizzati devono essere messi a disposizione di tutte le aree di business, in modo da far nascere idee innovative nei più disparati settori dell’azienda;
  • Culture & Data Tools. Aver coscienza della “qualità del dato”: occorre far nascere una “cultura” del dato, utile a prendere decisioni, grazie all’utilizzo di complessi strumenti di analisi (Analytics).

L’approccio strutturato di Informatica Software

Terzo intervento del forum, più operativo, è stato quello di Marco Gruppo, di Informatica Software Italia, il quale in primis ha mostrato dei numeri particolarmente interessanti:
  • ogni anno, i big data aumentano del 40%;
  • <5% delle aziende riescono a comprendere le esigenze dei propri clienti nell’ambito del Big Data e a soddisfarle. Manca ancora quella che è detta “visione comune“: i clienti non comprendono ancora il valore del Big Data e le aziende non riescono ancora a trasformare le esigenze in progetti di successo e, dunque, in business. In sintesi: non esiste ancora un “approccio strutturato” al Big Data!
La riflessione si sviluppa attorno alla seguente formula:

 

RETURN ON BIG DATA = [VALUE OF DATA] / [COST OF DATA]

 

L’obiettivo è quello di ridurre i costi del Big Data al crescere dei dati. Sia il cliente che il fornitore di Big Data sono preoccupati dai seguenti aspetti:
  • accuratezza/qualità/affidabilità del dato
  • privacy: quando si viola e che problemi legali si corrono?
  • velocità di elaborazione e accesso
  • ritorni economici
  • mancanza di risorse (come i data scientist in Italia)
Dal punto di vista tecnico, la best practices comprende:
  • l’organizzazione dei dati e dei “fatti” in strutture di più facile comprensione
  • la virtualizzazione dei dati
  • la bonifica dei dati
Informatica Software ha adottato la seguente metodologia di analisi per trattare i Big Data, sfruttando le tecnologie di Apache Hadoop e HParser.

 

Ecco in sintesi il flusso operativo:

 

DATA =>   HPARSER  =>  HADOOP (area di staging) =>  
EXTRACTION (Power Center) => DATA WAREHOUSE  =>
BI TOOLS  => DECISIONS

Microsoft e il Big Data

Dario Lissoni, di Microsoft Italia, ha illustrato invece l’offerta tecnologica di Microsoft per il Big Data.

 

Le aree di applicazione in cui Microsoft intende operare sono:
  • Social & Web Analysis
  • Live Data Feeds (machine to machine – dati raccolti da sensori, processi, e così via, già digitali, ma trascurati e da cui si può trarre un valore)
  • Advanced Analytics
Microsoft Big Data Lifecycle. Anche Microsoft ha sfruttato Apache Hadoop, portandolo dentro la propria piattaforma,  per trattare i dati non strutturati (non relazionali). Ha rilasciato, sotto licenza OpenSource, anche una versione “custom” di Hadoop – uno dei primi tentativi di “casa Microsoft” di collaborare ad una iniziativa “open” – per trarne ovviamente un vantaggio competitivo in questo nuovo settore.

 

I dati, secondo Microsoft, ricadono in tre livelli:

 

RELATIONAL  –  NON-RELATIONAL – STREAMING

 

I non-relazionali vengono trattati con Hadoop, i relazionali con l’ovvio SQL Server. La piattaforma cloud per la distribuzione di questi dati è il lanciatissimo Windows Azure, che, grazie al Cloud Connectivity, integra i tools di Microsoft Office e SharePoint (analytics e insights).

 

Casi di studio. I casi di studio proposti da Microsoft sono stati Yahoo, KLOUT (analizza le reti di social network e organizza gli utenti in cluster – social sentiment) e GE (per il monitoring sui data center).

 

L’offerta tecnologica di Oracle

Enrico Proserpio, di Oracle Italia, ci ha illustrato l’offerta tecnologica di Oracle per i Big Data. Se prima dei big data, la fase di “Acquire” (acquisizione dei dati e loro memorizzazione) veniva fatta con i DBMS (OLTP), quella di “Organize & Discovery” con gli ETL e quella di “Analyze” dai Data Warehouse, sui quali venivano applicati gli strumenti di Business Intelligence e di Analytics, adesso la strategia è quella di passare dai dati non-strutturati (Unstructures) a quelli strutturati (Schema). In poche parole, Oracle si porta “in casa” i dati. Si passa, dunque, da un database NO-SQL dove transitano tutti i dati da elaborare, per poi memorizzarli nel database Oracle.

 

La fase di “Acquire“, dunque, viene fatta con Apache Hadoop (anche questo customizzato da Oracle). I dati passano poi in un Oracle NO-SQL DB, in cui vengono organizzati e memorizzati per essere spostati o verso database relazionali (OLTP) o verso un Oracle Data WareHouse, mediante gli Oracle Big Data Connectors. La fase di “Organize & Explore” viene intrapresa nel Data Warehouse, nel quale si utilizzano nuovi strumenti come Endeca. Quest’ultimo permette di creare modelli di dati dinamicamente senza la definizione di uno schema di partenza (Information Discovery). Nell’ultima fase di “Analyze” vengono applicati gli strumenti Oracle Advanced Analytics, che permettono un’analisi a più livelli (Depth of Analytics).

 

Ferrovie dello Stato: una prima sperimentazione dei Big Data in Italia nel settore del trasporto pubblico

Alessandro Musumeci, Direttore dei Sistemi informativi di Ferrovie dello Stato, descrive un caso reale di implementazione dei Big Data nel gruppo FS, attualmente in fase di sperimentazione, e applicato ad un modello di funzionamento della catena logistica “point-to-point” per lo scambio merci tra mezzi su strada e su rotaia e per l’analisi di riempimento dei treni.

 

Alla domanda “Perché i Big Data?“, ecco la risposta del Direttore: “Nell’attività di logistica vengono ricavate grosse quantità di dati, che occorre utilizzare per il monitoraggio dell’efficienza dei processi, per poter studiare il comportamento dei clienti oppure ottimizzare le informazioni di cui si dispone. Le analisi devono essere condotte in tempo reale e devono consentire di guidare i processi aziendali.
Sempre secondo Musumeci, la tematica dei Big Data estende il concetto della Business Intelligence. Il processo di analisi dei dati non coinvolge solamente l’ICT, ma anche le aree di marketing, di vendita e di produzione. Tra gli obiettivi ci sono la riduzione del “time to market“, l’efficienza delle azioni svolte e il monitoraggio del sentiment dei clienti.

Il Big Data costa!

In ultima analisi, l’intervento di Musumeci si è concluso sottolineando che il BIG DATA ha un costo elevato  e comporta un grosso investimento aziendale per l’acquisto di hardware molto potente, il rifacimento di architetture applicative e di rete e l’acquisizione/applicazione di tools di analisi – da innestare su sistemi esistenti -,  oltre al reperimento di risorse umane che abbiano competenze analitiche non indifferenti.

 

Vi allego il materiale presentato dai relatori il giorno dell’evento:

Presentazioni
Carlo Vercellis, Responsabile Scientifico Osservatorio Business Intelligence, School of Management Politecnico di Milano
Marco Gruppo, Software Technical Lead, Informatica Software Italia
Danilo Lissoni, Application Platform Lead, Microsoft Italia
Enrico Proserpio, Senior Technology Director Sales Consulting, Oracle Italia
White PaperOracle: Big Data for the Enterprise
Riferimenti e approfondimenti:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *


2 × tre =