Data quality e AI readiness: perché l’intelligenza artificiale fallisce prima di iniziare

Giugno 24, 2026

Author: Manuela Bazzarelli- Head of Operations @ Aramix (Datrix Group), Marika Savarese - Head of Tech Innovation @ Aramix (Datrix Group)

La discussione pubblica sull’AI si concentra sui modelli. Ma la variabile che separa i progetti in produzione da quelli che restano proof-of-concept è un’altra: la qualità del dato e la maturità con cui un’organizzazione lo governa.

Negli ultimi due anni l’intelligenza artificiale è entrata nelle aziende con una velocità senza precedenti. L’attenzione si è concentrata sui modelli: capacità generativa, multimodalità, riduzione dei costi, nuove architetture. Eppure, nel passaggio dalla sperimentazione alla produzione emerge un dato ricorrente: il problema non è il modello. È il dato.

Quella che il dibattito chiama “AI readiness” — la capacità reale di un’organizzazione di adottare sistemi di intelligenza artificiale in modo scalabile e affidabile — dipende in larga misura da una variabile meno visibile ma dirimente: la qualità dei dati e la maturità della loro governance.

È un tema che si collega direttamente alla questione più ampia dell’impresa ingegnerizzata nell’era dell’AI. Se l’AI non è semplicemente uno strumento da adottare, ma una tecnologia che modifica il modo in cui l’impresa produce conoscenza, coordina il lavoro e prende decisioni, allora la qualità del dato non è un prerequisito tecnico. È il primo test dell’architettura organizzativa. Dove il dato è frammentato, ambiguo o non governato, anche l’AI più avanzata resta separata dal sistema reale dell’impresa.

Secondo Gartner, fino al 70% del tempo nei progetti analytics e AI è dedicato ad attività di data preparation, inclusi accesso, pulizia, trasformazione e integrazione dei dati. Non è un’inefficienza marginale: è la condizione strutturale dell’AI applicata. La maggior parte del lavoro non riguarda l’intelligenza, ma l’infrastruttura informativa che la rende possibile.

Il paradosso dei modelli più potenti e dei contesti più fragili

L’evoluzione dei foundation model ha generato una percezione diffusa, e in parte fuorviante: che l’AI sia diventata meno dipendente dal dato. I modelli sviluppati di ultima generazione mostrano capacità generaliste sorprendenti, spesso senza alcun addestramento specifico su domini aziendali in cui vengono impiegati.

Ma questa autonomia è solo apparente.

Nel momento in cui l’AI viene integrata in processi reali — customer operations, supply chain, risk management, compliance — entra, inevitabilmente, in contatto con dati proprietari: incompleti, duplicati, distribuiti su sistemi legacy e spesso privi di semantica condivisa. Il risultato è un paradosso, che vale la pena enunciare con chiarezza: più i modelli diventano sofisticati, più diventano sensibili alla qualità del contesto. Un modello avanzato non corregge dati incoerenti, li amplifica.

C’è però un secondo paradosso, meno discusso. Migliorare la qualità dei dati riduce il rumore, ma non elimina l’incertezza strategica. Un dataset può essere accurato, completo e aggiornato, e tuttavia rappresentare solo una porzione del problema decisionale. In questo caso l’AI non produce semplicemente un errore: produce una forma più sofisticata di falsa precisione. La decisione appare più oggettiva perché è numerica, più affidabile perché è automatizzata, più difendibile perché è tracciabile. Ma la precisione formale dell’output non coincide necessariamente con la comprensione del sistema in cui quell’output verrà usato.

Questo punto è cruciale per le imprese. Come suggerisce la tradizione della bounded rationality, le organizzazioni non decidono a partire da una rappresentazione completa del mondo, ma da mappe parziali, criteri di soddisfacimento e processi di ricerca limitati. Un modello può quindi ottimizzare una metrica locale e peggiorare la performance complessiva: migliorare il lead scoring e ridurre la varietà commerciale, aumentare l’efficienza del pricing e indebolire la relazione con il cliente, accelerare il credit scoring e incorporare rigidità decisionali difficili da vedere. La qualità del dato è quindi una condizione necessaria dell’AI readiness, ma non è una garanzia contro l’errore sistemico.

**Cosa significa davvero “qualità del dato”**

La qualità del dato non è un concetto unico, ma un insieme di dimensioni tecniche e semantiche consolidate anche negli standard di International Organization for Standardization (ISO 8000) e nella letteratura DAMA (Data Management Association):

Accuratezza: il dato rappresenta correttamente la realtà
Completezza: non mancano elementi rilevanti
Coerenza: lo stesso dato non cambia tra sistemi
Tempestività: il dato è aggiornato rispetto all’uso
Univocità: assenza di duplicazioni o ambiguità

Nel contesto dell’AI, però, queste dimensioni non sono sufficienti. I modelli non richiedono solo dati corretti: richiedono dati interpretabili in modo non ambiguo da sistemi probabilistici. In altre parole, machine-usability oltre che qualità formale.

E’ uno spostamento concettuale tutt’altro che marginale, perché trasferisce il problema della pulizia del dato alla sua struttura semantica – e quindi dal data engineering all’architettura dell’informazione.

Un modo utile per leggere questo problema viene dalla teoria dei “rugged landscapes”, i paesaggi adattivi accidentati. In un paesaggio semplice, ogni miglioramento locale porta l’organizzazione più vicino alla soluzione migliore. In un paesaggio accidentato, invece, le variabili sono interdipendenti: cambiare un elemento modifica il valore degli altri. La performance non dipende da una singola scelta, ma dalla configurazione complessiva. In questi contesti, l’apprendimento locale può portare a picchi locali: soluzioni migliori di quelle precedenti, ma inferiori rispetto ad alternative che richiederebbero movimenti più ampi, meno intuitivi o meno immediatamente misurabili.

Per l’AI questo significa che il problema non è solo avere dati “puliti”. È capire quale paesaggio decisionale quei dati stanno rappresentando. Se il modello osserva solo una parte del sistema, tenderà a ottimizzare quella parte. Se la metrica di fitness è stretta, l’AI imparerà a servire quella metrica. In termini organizzativi, il rischio è scambiare una rappresentazione computabile del problema per il problema stesso: una criticità già evidenziata dagli studi sulla ricerca cognitiva ed esperienziale, dove le mappe semplificate guidano la ricerca ma possono anche vincolarla. L’impresa non vede il paesaggio: vede una sua proiezione computabile.

OpenAI

AI readiness: una proprietà emergente dell’architettura

L’AI readiness non è una caratteristica di un singolo sistema, ma una proprietà emergente dell’intera architettura informativa aziendale.

Secondo analisi di McKinsey & Company sulle organizzazioni che riescono a scalare l’AI, oltre le fasi pilota, si identificano alcuni elementi ricorrenti:

La prima è la presenza di un’architettura dati unificata o federata, che riduce la frammentazione informativa e i silos tra funzioni.
La seconda è la tracciabilità del dato, spesso indicata come data lineage: la possibilità di risalire a ogni trasformazione che un’informazione ha subito.
La terza è la consistenza tra training e produzione nei sistemi di machine learning, uno dei punti critici più frequenti nei progetti industriali.

Infine, la governance non è separata dallo sviluppo, ma integrata nei processi stessi.

In questa prospettiva, l’AI readiness non riguarda i modelli, ma la struttura del sistema che li alimenta.

Il costo invisibile della cattiva qualità del dato

Il costo della scarsa data quality raramente si manifesta in modo immediato. Più spesso emerge come degrado progressivo delle performance dei sistemi.

Modelli predittivi instabili, aumento dei falsi positivi, decisioni automatizzate incoerenti o impossibilità di scalare prototipi sono sintomi ricorrenti di un problema sistemico.

Il punto critico non è lo sviluppo del modello, ma la fase di produzione, dove il data drift rende progressivamente inattendibili le previsioni.

Questo effetto è particolarmente evidente nei sistemi basati su dati comportamentali, dove il contesto evolve più velocemente dell’infrastruttura che dovrebbe rappresentarlo.

**Dal data lake al data product: il cambio di paradigma**

Negli ultimi anni si è affermato un cambio di paradigma nella gestione dei dati: dal data lake al data product.

Il modello tradizionale dei data lake ha spesso generato grandi repository informativi, ma poca semantica, rendendo difficile il riutilizzo coerente dei dati.

L’approccio dei data product — associato a modelli di data mesh — ribalta questa logica: ogni dataset viene trattato come un prodotto autonomo, con ownership chiara, documentazione, SLA e metriche di qualità esplicite.

Questo spostamento è cruciale per l’AI readiness, perché introduce un principio organizzativo fondamentale: i dati non sono asset passivi, ma prodotti con responsabilità definite.

**LLM e data governance: nuovo livello di complessità**

L’adozione di modelli linguistici di grandi dimensioni introduce una trasformazione meno visibile ma più profonda: la separazione tra dato, istruzione e decisione diventa sfumata.

In sistemi tradizionali, la pipeline è relativamente tracciabile: dataset, feature engineering, modello, output. Nei sistemi basati su LLM e architetture retrieval-augmented generation (RAG), la catena diventa più complessa: documenti non strutturati, embedding, retrieval semantico, prompt dinamici, generazione probabilistica e post-processing applicativo.

Questa stratificazione introduce quello che può essere definito un “opacity layer”: un livello intermedio che rende difficile ricostruire in modo deterministico la relazione tra dati di origine e output finale.

Il problema non è solo tecnico, ma di accountability: perché il sistema ha prodotto questa risposta?

Il ritorno della regolazione: EU AI Act e sistemi ad alto rischio

Con l’European Union Artificial Intelligence Act, il quadro normativo europeo ha introdotto un principio chiave: la responsabilità non è del modello, ma del sistema.

Questo cambia radicalmente la natura della data governance. Non è più una funzione di supporto, ma un requisito di conformità.

Le organizzazioni che sviluppano o utilizzano sistemi classificati come “high-risk” devono dimostrare la tracciabilità dei dati utilizzati nei modelli, la documentazione delle trasformazioni, il controllo sui dataset di training e sui knowledge base, il monitoraggio del drift e la valutazione continua dei rischi.

In questo contesto, strumenti come data catalog, lineage tracking e model registry non sono più opzionali. Diventano elementi essenziali di auditabilità e quindi di legittimità.

Compliance apparente e controllo reale

Un effetto già osservabile nelle organizzazioni è la divergenza tra compliance formale e controllo sostanziale.

Molte aziende implementano strumenti di governance — cataloghi, dashboard, policy — senza però ottenere una reale comprensione semantica del flusso dei dati.

Il problema si acuisce nei sistemi basati su LLM, dove i dati sono spesso non strutturati e il confine tra informazione e istruzione (prompt) è ambiguo. In questi casi, il rischio non è solo l’errore tecnico, ma l’impossibilità di verificare l’origine delle decisioni automatizzate.

Il cambiamento introdotto dalla regolazione europea è dunque concettuale prima ancora che tecnico. Non si regolano più modelli isolati, ma sistemi socio-tecnici complessi. La conseguenza è che un modello anche altamente performante può risultare non conforme se il sistema informativo che lo alimenta non è controllabile. L’AI readiness, in questa prospettiva, smette di essere una misura di performance e diventa una misura di governabilità.

La data governance deve quindi diventare anche governance dell’apprendimento. Le organizzazioni imparano dall’esperienza, ma l’esperienza è sempre selettiva. Si osservano meglio i processi attivi, i clienti acquisiti, i prodotti lanciati, le campagne eseguite, i canali già presidiati. Si osservano molto meno le alternative non scelte, i clienti persi prima di entrare nel funnel, i progetti interrotti, i fallimenti resi invisibili dai sistemi di reporting. Questa asimmetria genera una forma di miopia dell’apprendimento: l’organizzazione apprende soprattutto da ciò che è vicino nel tempo, nello spazio e nella memoria dei successi.

L’AI può attenuare questa miopia solo se viene progettata dentro un’architettura decisionale adeguata. In caso contrario può amplificarla. Un sistema addestrato prevalentemente sull’esperienza storica dell’impresa può rendere più efficiente il passato, non necessariamente più intelligente il futuro. La letteratura sulla problemistic search mostra che il modo in cui un’organizzazione definisce il problema condiziona la ricerca delle soluzioni: ridurre la ricerca a una reazione automatica alla performance sotto aspirazione lascia fuori diagnosi, rappresentazioni e giudizio manageriale. Per questo l’AI readiness richiede audit trail, metriche di incertezza, stress test dei modelli, esperimenti controllati e momenti espliciti di giudizio umano.

L’AI come punto di arrivo

L’errore più comune nell’adozione dell’intelligenza artificiale è considerarla il punto di partenza della trasformazione digitale.

In realtà, è il punto di arrivo.

Prima dell’AI ci sono i dati. Prima dei dati ci sono i sistemi che li generano. E prima dei sistemi c’è l’organizzazione che definisce cosa significa qualità, responsabilità e decisione.

Per questo la data quality non è un tema tecnico, ma una scelta strategica dell’impresa ingegnerizzata. E l’AI readiness non è una checklist tecnologica, ma una misura della maturità con cui un’organizzazione è in grado di rendere leggibile, controllabile e governabile la propria complessità informativa.

Data quality e AI readiness: perché l’intelligenza artificiale fallisce prima di iniziare

La discussione pubblica sull’AI si concentra sui modelli. Ma la variabile che separa i progetti in produzione da quelli che restano proof-of-concept è un’altra: la qualità del dato e la maturità con cui un’organizzazione lo governa.

Il paradosso dei modelli più potenti e dei contesti più fragili

**Cosa significa davvero “qualità del dato”**

AI readiness: una proprietà emergente dell’architettura

Il costo invisibile della cattiva qualità del dato

**Dal data lake al data product: il cambio di paradigma**

**LLM e data governance: nuovo livello di complessità**

Il ritorno della regolazione: EU AI Act e sistemi ad alto rischio

Compliance apparente e controllo reale

L’AI come punto di arrivo

Featured posts

Modelli sempre più potenti e adozione in stallo: il paradosso dell’AI in azienda

L’intelligenza artificiale entra nella governance aziendale: cosa cambia con il D.lgs. 47/2026

Alphabet: la scommessa full-stack che sta dominando la partita AI

Azienda

Data room

Titolo azionario

Media & Contatti

Data quality e AI readiness: perché l’intelligenza artificiale fallisce prima di iniziare

La discussione pubblica sull’AI si concentra sui modelli. Ma la variabile che separa i progetti in produzione da quelli che restano proof-of-concept è un’altra: la qualità del dato e la maturità con cui un’organizzazione lo governa.

Il paradosso dei modelli più potenti e dei contesti più fragili

Cosa significa davvero “qualità del dato”

AI readiness: una proprietà emergente dell’architettura

Il costo invisibile della cattiva qualità del dato

Dal data lake al data product: il cambio di paradigma

LLM e data governance: nuovo livello di complessità

Il ritorno della regolazione: EU AI Act e sistemi ad alto rischio

Compliance apparente e controllo reale

L’AI come punto di arrivo

Featured posts

Modelli sempre più potenti e adozione in stallo: il paradosso dell’AI in azienda

L’intelligenza artificiale entra nella governance aziendale: cosa cambia con il D.lgs. 47/2026

Alphabet: la scommessa full-stack che sta dominando la partita AI

Iscriviti alla nostra Newsletter

**Cosa significa davvero “qualità del dato”**

**Dal data lake al data product: il cambio di paradigma**

**LLM e data governance: nuovo livello di complessità**

Iscriviti alla nostra
Newsletter