// TOM'S HARDWARE ITALIA — INTELLIGENZA ARTIFICIALE

OpenAI mette alla prova l'AI nella ricerca scientifica

Published: 06/18/2026, 01:50 PM

OpenAI ha presentato LifeSciBench, un nuovo benchmark pensato per misurare quanto i sistemi di intelligenza artificiale siano davvero utili nella ricerca biomedica. Il punto non è verificare se un modello conosca una risposta di biologia, ma capire se sappia lavorare su problemi simili a quelli affrontati da ricercatori in ambito farmaceutico e biotech. Il test include 750 attività scritte da esperti e distribuite su sette workflow ricorrenti nelle scienze della vita: gestione delle evidenze, analisi, progettazione e ottimizzazione, ragionamento scientifico, validazione operativa, traduzione verso l'applicazione clinica e comunicazione scientifica. Alle richieste testuali si affiancano 1.062 artefatti, tra figure, PDF, tabelle, file di sequenza, strutture chimiche e riferimenti web. La differenza rispetto a molti benchmark tradizionali è nel metodo di valutazione. Ogni risposta viene giudicata con rubriche specifiche, costruite per misurare correttezza, livello di dettaglio, giustificazioni, limiti dichiarati e utilità operativa. In totale, il benchmark comprende 19.020 criteri di valutazione, con una media di 25 criteri per attività. La costruzione del dataset ha coinvolto 173 scienziati con formazione di livello dottorale ed esperienza diretta in programmi di drug discovery. Le attività accettate hanno attraversato cicli di revisione automatica e almeno due passaggi di valutazione da parte di esperti, mentre la validazione indipendente è stata affidata a 453 revisori. Il 97% di questi ultimi possiede un PhD o un titolo equivalente. I primi risultati mostrano un quadro misto. GPT-Rosalind, modello citato da OpenAI nel contesto della ricerca scientifica, migliora il tasso di superamento complessivo rispetto a GPT-5.5, passando dal 25,7% al 36,1%. I progressi sono più evidenti nella comunicazione scientifica e nella traduzione di evidenze precliniche verso implicazioni cliniche, ma il margine resta ampio. Le difficoltà emergono soprattutto quando il modello deve lavorare con dati complessi o produrre output estremamente precisi. Nei task con artefatti o URL, il tasso di superamento di GPT-Rosalind scende dal 45,1% dei casi solo testuali al 28,1%. Anche formati come sequenze, strutture o risultati numerici restano problematici, perché piccoli errori possono rendere inutilizzabile una risposta in laboratorio. Per OpenAI, LifeSciBench è quindi meno una classifica e più uno strumento per capire dove l'AI agentica può diventare un supporto credibile alla scienza. Il benchmark non dimostra che un modello acceleri automaticamente la scoperta di farmaci, ma mette sotto stress capacità cruciali: ragionare su evidenze incomplete, riconoscere incertezze, proporre esperimenti e motivare decisioni in modo verificabile.