Pillole di AI: Open Data Lakehouse

Le aziende che si occupano di IT gestiscono, ogni secondo, una mole impressionante di dati: negli ultimi anni è cresciuta la tendenza, per le aziende più virtuose, di estrarre valore da essi notando i numerosi benefici che ne conseguono. I dati hanno formati disomogenei e sono archiviati in repository diverse e scollegate tra loro. Inoltre, spesso si fa affidamento a database di tipo tradizionale e questo espone le organizzazioni a possibili data breach, oltre alla necessità di aderire alle policy aziendali in materia di protezione dei dati (GDPR).
La soluzione per molti è stata quella di utilizzare un sistema evoluto di gestione dei big data, al fine di gestire in modo flessibile tutte le informazioni, migliorando l’efficienza nel loro accesso e permettendo una scalabilità della piattaforma semplificata nel momento in cui i dati aumentano di volume, come è nel caso degli algoritmi di Intelligenza Artificiale e Machine Learning che sono “avidi” di dati.

Open data lakehouse

Il sistema di gestione dei big data più evoluto è denominato open data lakehouse. Per comprendere al meglio le potenzialità di questo sistema, però, è necessario approfondire i concetti su cui si basa: il data Lake ed il data Warehouse.

Il data lake è il repository di dati più semplice ed ha il fine di archiviare quantità elevate di dati nel loro formato originale, senza operare su essi una trasformazione per renderli omogenei. In un data lake, infatti, possono essere contenute tabelle strutturate per database, pagine web (file cosiddetti “semi strutturati) e dati non strutturati come i semplici file multimediali o documentali.
Questo approccio alla conservazione e gestione del dato è comunque utile per conservare l’integrità del file originale, facilita la riduzione dei costi e la scalabilità.
Per data warehouse si intende, invece, il sistema di data management su cui sono basate le principali attività di Business Intelligence (BI) di un’impresa come gli Analytics e l’estrazione di report. Il data warehouse ha una struttura di tipo relazionale perché combina i dati tra di loro evidenziando le relazioni tra essi e contenendoli all’interno di tabelle statiche: questo sistema è ottimizzato per garantire le performance migliori nell’accesso ai dati e permette di facilitare le operazioni di ricerca nei dati come le query.

IBM si è resa conto che è possibile combinare i pregi di entrambi i sistemi in un sistema unificato, denominato data lakehouse e per questo ha sviluppato watsonx data: un sistema di data management unificato che combina i principi del data lake come l’efficienza nella riduzione dei costi, la scalabilità quando la quantità di dati diventa importante, insieme ai principi del data warehouse, come la relazione tra i dati e la gestione semplificata delle query.
IBM, nella sua nuova soluzione watson.data, combina le capacità dei data lake e dei data lakehouse all’interno di un data lakehouse che offre una grande capacità di scaling per i workload dedicati all’Intelligenza Artificiale.

Dato che i dati sono conservati in formati molteplici, il data lakehouse può utilizzare un approccio “open” anche in questo caso, favorendo un’archiviazione basata su più formati: tutti gli utenti avranno così possibilità di accedere alle informazioni più aggiornate, in tempo reale.
Watsonx.data grazie all’approccio open permette di accedere a tutti i dati tramite una serie di policy che garantiscono sicurezza al dato e direttamente da un single point, grazie a un metadata condiviso tra i livelli on-premise e l’hybrid cloud.

Conclusioni

Un open data lakehouse porta diversi benefici, il primo tra tutti è essere open: riduce la ridondanza dei dati perché essi vengono conservati al suo interno nel loro formato originale e non è necessario duplicarli per poterli organizzare in tabelle relazionali. Il secondo beneficio è una riduzione dei costi complessivi perché elimina la necessità di conservare i dati in sistemi di storage multipli come in origine.
L’open data lakehouse, inoltre, offre una maggiore tutela della governance dei dati perché garantisce che i dati inseriti siano in linea con i prerequisiti richiesti ed evita che i dati di bassa qualità vengano introdotti nel sistema. Questo sistema, infine, facilita la scalabilità perché permette l’accesso simultaneo da parte di una moltitudine di utenti, ha un motore di query da parte di più utenti insieme e riduce i carichi: l’esempio più semplice per apprendere le sue potenzialità è il suo utilizzo da parte delle piattaforme di streaming per la distribuzione dei contenuti audiovisivi e dell’estrazione di successivi report per la valutazione dei risultati di visione.

Fonte: it.tdsynnex.com

Pillole di AI: Open Data Lakehouse

Open data lakehouse

Conclusioni

Vuoi saperne di più? Contattaci!