// TOM'S HARDWARE ITALIA — INTELLIGENZA ARTIFICIALE
I data lakehouse diventano fondamento per l'AI aziendale: casi d'uso per le imprese
I data lakehouse sono diventati l'architettura di riferimento per l'AI enterprise, come documenta CIO. Non è una scelta estetica: è una risposta a un problema concreto che le organizzazioni hanno scoperto nel tentativo di portare in produzione applicazioni AI su scala. I data lake tradizionali avevano il dato grezzo ma non la struttura per interrogarlo in modo affidabile. I data warehouse avevano la struttura ma non la flessibilità per gestire i formati non strutturati che l'AI richiede. Il lakehouse unifica le due architetture — e aggiunge i layer di governance, sicurezza e accesso semantico che i sistemi AI moderni richiedono per funzionare in modo affidabile.
Il 65% delle organizzazioni enterprise ha già adottato architetture lakehouse, secondo Gartner. I dati di Databricks aggiungono un'informazione più sorprendente: la quota di database creati da sistemi AI invece che da sviluppatori umani è passata dallo 0,1% al 80% in due anni. Gli agenti AI stanno diventando i principali produttori di strutture dati nelle organizzazioni che li hanno adottati — e questo cambia il modo in cui il lakehouse deve essere progettato, governato e mantenuto.
L'architettura lakehouse nasce dalla convergenza di due tradizioni separate nel mondo dei dati enterprise. Da un lato, i data lake — repository di storage a basso costo, tipicamente su object storage S3 o equivalenti, in cui i dati vengono depositati in formato nativo senza trasformazione. Dall'altro, i data warehouse — sistemi ottimizzati per query analitiche su dati strutturati, con schema definito a priori e performance garantite sulle interrogazioni.
Il problema storico del data lake era la mancanza di struttura: i dati c'erano, ma interrogarli in modo affidabile richiedeva ingegneria significativa. Il problema del data warehouse era la rigidità: aggiungere nuovi formati, incorporare dati non strutturati o modificare lo schema richiedeva processi lenti e costosi. Il lakehouse risolve entrambi aggiungendo al data lake un layer di metadati strutturati — tipicamente tramite formati di tabella aperti come Apache Iceberg o Delta Lake — che permette query SQL affidabili senza sacrificare la flessibilità del storage grezzo.
L'AI enterprise ha amplificato questa necessità. I modelli linguistici di grandi dimensioni richiedono accesso a dati testuali non strutturati (documenti, email, trascrizioni) e a dati strutturati (transazioni, record clienti, KPI) in modo simultaneo. I sistemi RAG — Retrieval Augmented Generation — che permettono agli LLM di attingere a basi di conoscenza aziendali devono accedere a entrambi i formati in tempo reale. Il problema di fondo è che i dati degli ERP sono spesso inaccessibili agli agenti AI anche quando tecnicamente disponibili: il lakehouse risolve l'accesso, ma non le politiche di governance. Un'architettura che separa i dati strutturati dai non strutturati costringe l'applicazione AI a gestire due sistemi separati, con i costi di ingegneria e i rischi di incoerenza che questo comporta.
Il caso Docusign e Snowflake illustra come il lakehouse abilita applicazioni AI che non erano praticabili con architetture separate. Docusign gestisce decine di milioni di contratti — documenti non strutturati in PDF, Word e altri formati — insieme ai metadati strutturati associati: parti contraenti, date di firma, clausole chiave, scadenze. L'integrazione con Snowflake attraverso le API MCP (Model Context Protocol) ha permesso a Docusign di costruire un sistema RAG che interroga contemporaneamente il testo dei contratti e i metadati strutturati.
Il risultato pratico: un legale che chiede "mostrami tutti i contratti con clausole di rinnovo automatico che scadono nei prossimi 90 giorni con fornitori nel settore manifatturiero" ottiene una risposta che richiede l'accesso a dati non strutturati (il testo delle clausole) e strutturati (le date di scadenza, la categorizzazione dei fornitori) in modo coerente. Prima dell'integrazione lakehouse, questa query richiedeva un'analisi