L’integrazione Dati: Data Warehouse, Data Lake e modello integrato

il coltello nell’acqua – Roman Polanski

Il mondo del marketing è sempre in evoluzione. Abbiamo dati che arrivano da per tutto ed è sempre più necessario avere una visione unificata di questi dati per cercare di collegare il dato al comportamento degli utenti. per raggiungere questo scopo la raccolta dei dati e la loro archiviazione (storage) giocano un ruolo cruciale.

L’approccio tradizionale di raccolta dei dati è quello a silos, dove i dati vengono raccolti separatamente da ogni funzione aziendale. Ma quest’approccio è totalmente inadatto all’estrazione di valore dai Big Data. Infatti è l’integrazione una variabile chiave per poter esplorare i dati e scoprire pattern e correlazioni inaspettate. Non più silos, dunque, ma non solo, anche il ben noto Data Warehouse, ovvero l’archivio informatico di dati strutturati raccolti dai sistemi operazionali aziendali e da fonti esterne, si è rivelato insufficiente.

nelle architetture tradizionali si è soliti ricorrere all’utilizzo di repository dedicati alle specifiche necessità di una particolare funzione, questi silos contengono il sottoinsieme dei dati aziendali ritenuti d’interesse e sui quali vengono poi applicate le metodologie di analisi. Ma con il proliferare dei Big Data la situazione si fa più complessa, occorre ricercare pattern nascosti all’interno di ambienti che raccolgono l’insieme dei dati a disposizione dell’organizzazione nella sua interezza, in modo da avere informazioni che aumentino la conoscenza aziendale e in modo da integrare anche dati tradizionalmente non ritenuti di interesse.

Vediamo insieme le attuali alternative sul mercato.

Data Integration & Management models

  • Silos: rappresenta l’approccio tradizionale all’immagazzinamento dei dati e nasce nelle organizzazioni dove ogni linea di business raccoglie i propri dati per finalità e utilizzi differenti. Lo storage dei dati è organizzato secondo repository suddivisi per dipartimento aziendale, gli ambienti sono isolati tra loro, non vi è comunicazione e di conseguenza i dati non sono integrati.
  • Data Warehouse: vi è un archivio informatico che raccoglie i dati dai sistemi operazionali aziendali integrandoli con i dati provenienti dalle fonti esterne. I dati, per poter essere gestiti dal DWH, devono essere strutturati, ovvero devono essere rappresentati da relazioni descrivibili con tabelle e schemi rigidi.

data warehouse

  • Data Lake: ambiente di archiviazione dei dati nel loro formato nativo, fin quando non è necessario dar loro una struttura. Con questa modalità di gestione è possibile avere l’integrazione di elevate quantità di dati di qualsiasi formato e provenienti da qualsiasi fonte.

data lake

  • Modello Integrato: modello secondo il quale l’organizzazione ha a disposizione sia un Data Lake che un Data Warehouse che lavorano in modalità integrata per rispondere alle differenti esigenze di storage, gestione e analisi di qualsiasi tipologia di dato.

data integration

 

Extract, Transform, Load (ETL)

la differenza principale sta nell ETL e soprattutto nel processo di trasformazione. ETL è un’espressione in lingua inglese che si riferisce al processo di estrazione, trasformazione e caricamento dei dati in un sistema di sintesi

La Trasformazione del processo di ETL

  • Standardizzazione: definizione dei dati che saranno presi in considerazione, della modalità in cui verranno formattati e memorizzati, così come di altri fattori chiave che andranno a definire le fasi successive del processo.
  • Deduplicazione: segnalazione di duplicazioni agli steward dei dati; esclusione e/o eliminazione dei dati ridondanti.
  • Verifica: Le attività di verifica consentono di sfrondare ulteriormente i dati inutilizzabili e di contrassegnare eventuali anomalie in sistemi, applicazioni e dati.
  • Ordinamento: ottimizzazione dell’efficienza all’interno dei data warehouse tramite raggruppamento e ordinamento in categorie di elementi come dati grezzi, audio, multimediali e altri oggetti.

(approfondimento)

nel data warehoause la trasformazione viene decisa prima a priori, mentre nel data lake viene customizzata dopo in base alle necessità.

Stato del mercato e valutazioni

Il 74% delle organizzazioni si trova in una situazione che vede la prevalenza di modelli stratificati in Silos o Data Warehouse tradizionali, mentre il 26% ha implementato e affiancato nel tempo un Data Lake. Di queste aziende solo l’8% sono organizzate e orientate a svolgere analisi esplorative, seguendo una strategia data driven innovation e spingendo sempre di più verso un modello che può essere definito maturo e integrato, e che permette di implementare strategie per creare reale valore aziendale.

Oggi il 26% delle grandi aziende affianca o integra il Data Warehouse in un Data Lake, un ambiente di archiviazione dei dati nel loro formato nativo. Il Data Lake utilizza l’approccio “schema-on-read”, ciò significa che la struttura viene creata nel momento in cui i dati vengono utilizzati per le analisi, e questo cambio di prospettiva permette di immagazzinare anche dati non strutturati, quali testi, immagini o video.

Agli strumenti di storage, si affiancano tipologie innovative di gestione dei dati. Non solo database relazionali, ma anche basi di dati che superano o rinnovano il linguaggio SQL (si parla per questo di database NoSQL o NewSQL), al fine di migliorarne le performance.

Oggi una grande azienda su tre utilizza questi strumenti, tra i più noti i database colonnari e key-value, ma che comportano comunque un importante investimento di tempo e di denaro.

Proprio per questo motivo, nella quasi totalità dei casi, aziende più piccole preferiscono utilizzare tool esterni di analisi e raccolta di Big Data.

Con la diffusione dei Big Data si è propagata la necessità di anticipare alcune analisi, ed il Data Lake è l’architettura che risponde alla necessità di avere un unico contenitore di dati aziendali raccolti nel loro formato nativo. Con la diffusione di infiniti dati eterogenei per fonte e formato si diffonde il concetto di Data Lake.

Sarà interessante capire quali di questi modelli vengono utilizzati e quali problemi o opportunità ne conseguono, perché strutture più complicate avranno sicuramente più potenzialità ma potrebbero anche difficilmente rivelarsi di facile gestione.

 

Autore: Andrea Magnani