Logical Data Fabric, ovvero insight veloci nel cloud ibrido
Poter sfruttare il potenziale dei dati negli ambienti infrastrutturali che si stanno delineando richiede l’adozione di metodi innovativi ed efficaci. Andrea Zinno, data evangelist di Denodo, spiega come gli analisti possano supportare le necessità del business, preparando correttamente il terreno.
Pubblicato il 12 ottobre 2021 da Redazione

Le aziende si rivolgono sempre più spesso al cloud, per trarre vantaggio da risorse di calcolo e archiviazione scalabili ed elastiche. La disponibilità e l'economicità di tali tecnologie, per ambienti flessibili e scalabili, che richiedono prestazioni elevate, ha cambiato radicalmente il modo in cui gli architetti dell'informazione immaginano il futuro dell’information management, nonché dell’implementazione delle relative applicazioni.
In un tale contesto, il Logical Data Fabric risulta un metodo innovativo ed estremamente efficace per mettere insieme i dati distribuiti in ambienti cloud ibridi, potendolo inoltre sfruttare per superare le sfide sistemiche e semplificarne l’uso, quale esso sia.
Le sfide del cloud ibrido
Qualsiasi sforzo di migrazione o modernizzazione comporta, inevitabilmente, un certo grado di rischio, del quale bisogna esserne consapevoli, per poterlo gestire efficacemente. Questo, peraltro, sarà un tema ricorrente nei prossimi anni, quando le organizzazioni cercheranno di migrare dati e applicazioni su quello che rimarrà (almeno nel breve termine) un ambiente ibrido cloud/on-premise.
Operare all'interno di un ambiente ibrido aumenta la complessità e, di conseguenza, i rischi: le organizzazioni possono affrontarli combinando le best practice con una buona tecnologia, che offra maggiori possibilità ai cosiddetti data consumer e risponda alle loro esigenze in termini esigenze di analisi o, più in generale, di uso.
La soluzione? Il Logical Data Fabric
Un’aumentata capacità self-service all’uso dei dati ottimizza il ciclo di vita della loro analisi e accelera il cosiddetto time-to-analytics value. Se il paradigma convenzionale di estrazione, trasformazione e caricamento dei dati (Etl) mostra sempre più, in un mondo che si muove velocemente, la sua debolezza, si prospetta un futuro dove i dati, integrati tra loro secondo le esigenze del momento, viaggiano secondo un flusso continuo, che sia in grado di dare concretezza al concetto di democratizzazione dei dati. Gli architetti dei dati dovranno imparare a considerare l’approccio moderno del Logical Data Fabric come un elemento chiave nella semplificazione di tale democratizzazione, in grado di mettere insieme dati eterogenei e distribuiti, organizzandoli in modo intelligente e controllato.
La virtualizzazione dei dati può giocare un ruolo importante nel supportare, sia la necessità di accedere, gestire e analizzare i dati attraverso piattaforme eterogenee per il reporting e la Bi tradizionali, sia i casi d'uso che prevedono l’utilizzo di tecniche di machine learning e intelligenza artificiale, nonché l'analisi integrata per processi di decision making automatizzati, in grado di combinare i cosiddetti “data-at-rest” con flussi in tempo reale. Per abilitare tutto questo, un Logical Data Fabric deve fondarsi su alcuni principi-chiave.
I progetti di modernizzazione, innanzitutto, stanno determinando la migrazione verso il cloud ma, poiché fornitori di servizi cloud diversi offrono vantaggi diversi, sarebbe insolito vedere le aziende limitare le proprie possibilità impegnandosi con un unico vendor. Un Logical Data Fabric dovrebbe quindi sfruttare tecniche fondamentali di virtualizzazione dei dati, in cui istanze separate del virtualizzatore sono all'interno di ogni dominio cloud (come, ad esempio, Aws, Azure o Gcp), potendo accedere e aggregare i dati all'interno di quello stesso cloud Provider. Questo permetterà poi al Logical Data Fabric, nel suo complesso, di coordinare l'accesso e aggregare i dati residenti su cloud diversi, per fornire una visione unificata dei dati, a prescindere da dove questi siano e da come siano rappresentati.
Allo stesso tempo, un Logical Data Fabric di livello enterprise dovrebbe sfruttare il machine learning, per monitorare costantemente le fonti di dati e tracciare le modifiche alle strutture di dati, in modo da adattare automaticamente un modello semantico/virtualizzato e regolarne di conseguenza i metodi di accesso. Gli esempi in tal senso includono l'abilitazione degli accessi, senza interruzioni, nel caso la fonte possa cambiare, le modifiche delle routine di accesso che riflettono i modelli di utilizzo dei Data Consumer, le raccomandazioni di asset di dati agli analisti e il caching automatico dei dati, per contribuire a migliorare e garantire le giuste prestazioni nell’accesso ad essi.
Man mano, poi, che le architetture di dati diventano sempre più distribuite, le prestazioni delle applicazioni saranno sempre più influenzate dalla latenza dei dati. Un Logical Data Fabric di livello enterprise deve essere in grado di vincere questa sfida sfruttando ottimizzazioni che mascherano o eliminano ogni possibile ritardo nella consegna dei dati, ad esempio grazie a tecniche di ottimizzazione dinamiche delle query, che spostano parzialmente il calcolo verso i sistemi sorgenti, riducendo lo spostamento dei dati, memorizzando nella cache copie dei dati cui si accede di frequente, oppure grazie alla federazione intelligente delle query, così ma velocizzare e massimizzare il time-to-value.
Per supportare l'analisi dei dati, un Logical Data Fabric deve anche offrire quattro capacità fondamentali per la gestione dei dati: consapevolezza dei dati (documentando gli asset e la loro disponibilità), democratizzazione dei dati (consentendo, nel rispetto dei ruoli, l'accessibilità in modalità Self-Service), accesso trasparente (fornendo un metodo uniforme di accesso a domini di dati simili) e flessibilità del modello semantico (per ridurre la complessità nel differenziare modelli semantici e formati differenti).
Andrea Zinno, data evangelist di Denodo
La business intelligence e l'analisi tradizionali sfruttano normalmente data-at-rest, ma le aziende cercano sempre più spesso di sviluppare modelli predittivi e prescrittivi che possano incorporare data-in-motion. L'inserimento di modelli analitici nei flussi di dati aziendali riduce l'intervento manuale e snellisce il processo decisionale, rendendolo affidabile e automatizzato e consentendo che ciò avvenga in tempo reale. Un Logical Data Fabric può supportare un'integrazione dei modelli che sfrutta l'uso dei dati sia in movimento, che a riposo.
I data scientist, infine, si sforzano sempre più per ottenere dati affidabili e, principalmente, questo dipende da una sempre migliore comprensione dei dati stessi e dall’intelligence che su di essi si può applicare: glossari aziendali, mappatura del significato sui dati e documentazione delle relazioni che intercorrono tra di essi. Collegando i data consumer con i dati eterogenei che costituiscono il patrimonio informativo, il Logical Data Fabric diventa la fonte centrale per la consapevolezza, documentandone la posizione, il tipo, il formato, il contenuto e la provenienza, indipendentemente dalla loro distribuzione all’interno di un ambiente multicloud ibrido.
Un approccio semplificato
L'aumento della distribuzione dei dati, l'adozione di piattaforme cloud multiple, la modernizzazione delle applicazioni e la continua crescita di analisi sempre più sofisticate, aumentano la pressione su una delivery dei dati senza interruzioni, elemento fondamentale per un processo decisionale basato sui dati, che sia efficiente, agile ed efficace. L'integrazione di strumenti che vengono semplicemente spostati dai data center on-premise (lift-and-shift) si rivelerà sempre più insufficiente per soddisfare le sempre più frequenti e tempestive richieste di data insight. È quindi necessario e non più procrastinabile considerare l'utilizzo di un Logical Data Fabric, per semplificare l'accesso ai dati in profondamente distribuiti, così da semplificare la gestione dei dati e gli sforzi richiesti per analisi sempre più sofisticate, supportando l'accesso a una varietà di dati potenzialmente infinita, accelerando e rendendo agile il data delivery e ottimizzando le prestazioni.
Conclusioni
L’idea di un tessuto di dati, che fonda la sua ragion d’essere su una loro interconnessione, indipendente dal formato e dalla distribuzione geografica, è un concetto affascinante, che può essere ulteriormente migliorato attraverso una visione logica, dove il tessuto viene modellato a livello logico, senza fisicamente spostare o replicare i dati, rimandando tale spostamento al momento in cui i dati sono effettivamente richiesti, perché un moderno sistema di information management deve anche essere sostenibile, nel senso di sfruttare al meglio le risorse disponibili, usandole solo nel momento in cui ciò sia richiesto, senza che ciò ovviamente pregiudichi ciò che dai dati può essere ottenuto e senza che ciò ne limiti il loro uso, quale esso sia.
ANALYTICS