// TOM'S HARDWARE ITALIA — INTELLIGENZA ARTIFICIALE

The Atlantic rende cercabile la musica usata per addestrare l'AI

Published: 06/22/2026, 12:55 PM

The Atlantic ha reso consultabile un database musicale che permette di cercare brani e artisti presenti in quattro raccolte usate per l'addestramento AI. Il punto non è la semplice indicizzazione: lo strumento trasforma materiale finora opaco in un catalogo verificabile, utile per capire quali opere possano essere finite nelle pipeline dei modelli generativi. Le dimensioni spiegano perché la pubblicazione pesa: due dataset contano rispettivamente 12 milioni e 9 milioni di tracce, mentre gli altri due superano ciascuno le 100.000 canzoni. Non parliamo quindi di campioni marginali, ma di raccolte abbastanza grandi da coprire generi, epoche e cataloghi molto diversi. Le raccolte sono state scaricate migliaia di volte, ma non è possibile stabilire con certezza chi le abbia effettivamente usate. Alcuni riferimenti sono però documentati: Google e Stability AI hanno citato in lavori di ricerca l'uso di parte di questi materiali, inclusa una collezione legata al Free Music Archive. Il caso rientra nello stesso nodo affrontato anche quando si parla della raccolta di dati reali per addestrare i robot: un dataset non è neutro solo perché è accessibile online. Per la musica, la distanza fra ascolto personale, ricerca e sfruttamento commerciale diventa particolarmente sensibile. Tre dei quattro dataset non sono pacchetti audio completi, ma elenchi di collegamenti a YouTube o Spotify. In questi casi l'audio viene recuperato con strumenti automatici, un passaggio tecnico che può aggirare login, pubblicità e meccanismi di remunerazione previsti dalle piattaforme. Il quarto dataset, invece, include file MP3 distribuiti direttamente. Nel database compaiono nomi molto noti, dai grandi artisti pop a gruppi storici e compositori sperimentali. La presenza di un brano in una raccolta non dimostra da sola che un prodotto commerciale lo abbia usato, ma offre a musicisti, etichette e ricercatori un punto di partenza concreto per verificare esposizione e provenienza dei dati. Per l'AI generativa musicale, la novità sposta il dibattito dal generico conflitto sul copyright a una domanda più tecnica: quali dati sono entrati nel processo di training, con quali licenze e con quale tracciabilità. Più questi archivi diventano cercabili, più diventa difficile sostenere che la composizione dei dataset sia solo un dettaglio interno ai laboratori.