// MACITYNET — INTELLIGENZA ARTIFICIALE
La corsa all’AI si sposta verso i “world model”: startup e big tech investono miliardi
Questo sito contiene link di affiliazione per cui può essere compensato
Non passa mese, praticamente non passa settimana senza che il mondo dell’intelligenza artificiale non ci regali qualche novità. A parte le gare su quali modelli vengono rilasciati (e quando il governo americano dà loro il permesso di essere diffusi) ci sono sempre più spesso anche dei cambiamenti strategici nella natura di queste tecnologie.
Questa volta tocca ai world models, che stanno diventando il nuovo campo di battaglia dell’intelligenza artificiale: non più solo chatbot capaci di parlare, ma sistemi che provano a capire lo spazio, il tempo e le conseguenze delle azioni. Da Google DeepMind a Nvidia, fino alle startup più aggressive, la corsa è aperta per costruire macchine in grado di simulare il mondo reale. Secondo gli esperti questa è la prossima grande sfida dell’AI, che potrebbe cambiare per sempre la robotica, l’automotive e l’industria in generale. O almeno, provarci.
Il punto di partenza di questa corsa è una presa d’atto scomoda: i grandi modelli linguistici hanno un limite strutturale che nessun incremento di parametri riesce a sanare. Processano il testo con straordinaria fluidità, ma non hanno alcuna rappresentazione interna della fisica, della geometria né delle conseguenze di un’azione nel mondo reale. La discussione, già sollevata con forza dallo studio di Apple sui limiti architetturali dell’AI moderna, mostra che questi sistemi riconoscono pattern senza comprendere davvero lo spazio e il tempo fisico.
È qui che entrano i world model: sistemi progettati per costruire una rappresentazione interna dell’ambiente, in grado di prevedere come cambierà uno scenario, cosa succederà se un agente si muove in un certo modo, e quali forze fisiche governano quella trasformazione.
Non sono generatori di video né motori grafici tridimensionali, ma qualcosa di concettualmente più profondo: simulatori del reale capaci di ragionare su causalità, spazio e sequenze temporali. L’interesse non è puramente accademico, visti i miliardi di dollari che stanno confluendo nel settore da ogni direzione.
Il 3 giugno 2026 il team di World Labs guidato da Fei-Fei Li (genio di origine cinese del settore delle intelligenze artificiali) ha pubblicato A Functional Taxonomy of World Models, un framework che suddivide il campo in tre funzioni distinte. I renderer producono output visivi ottimizzati per la percezione umana; i simulatori modellano le transizioni di stato governate dalla fisica; i pianificatori selezionano le azioni per raggiungere obiettivi.
Il lavoro di Fei-Fei Li mira a fare chiarezza su un termine che era stato applicato indistintamente a generatori video, motori fisici e sistemi di controllo robotico, spesso generando più nebbia che comprensione.
In parallelo, Yann LeCun, responsabile dell’AI di Meta, ha sostenuto con forza al World Modeling Workshop del MILA di Montreal e poi all’ETH di Zurigo che i world model devono adottare la Joint Embedding Predictive Architecture (JEPA) anziché gli approcci generativi oggi dominanti. Secondo LeCun, un vero world model non genera pixel ma costruisce rappresentazioni strutturate del mondo che permettono di prevedere stati futuri in modo efficiente, senza dover ricostruire l’intera scena.
La divisione tra la scuola generativa e quella predittiva non generativa è il dibattito tecnico più acceso del momento, e non è ancora chiaro quale approccio prevarrà su scala industriale.