Machine learning e dati di addestramento

Il machine learning — l'apprendimento automatico — è il cuore dell'AI contemporanea. L'idea di base è sorprendentemente semplice: invece di programmare esplicitamente un computer per eseguire un compito, gli si forniscono enormi quantità di dati e si lascia che trovi da solo i pattern. Un modello di machine learning è essenzialmente una funzione matematica molto complessa che, dato un input, produce l'output più "probabile" secondo i pattern nei dati di addestramento.

Prendiamo un esempio concreto: un sistema che deve distinguere foto di gatti da foto di cani. Non scriviamo regole come "se ha le orecchie a punta è un gatto". Forniamo al modello milioni di foto etichettate ("gatto", "cane") e il modello, attraverso un processo iterativo chiamato backpropagation, aggiusta i suoi parametri interni fino a minimizzare gli errori. Alla fine, il modello ha "imparato" a distinguere gatti e cani — non perché capisca cosa siano, ma perché ha interiorizzato pattern statistici nelle configurazioni dei pixel.

Questo processo funziona incredibilmente bene per molti compiti: riconoscimento di immagini, traduzione, trascrizione del parlato. Ma nasconde un problema fondamentale: i dati non sono mai neutri. Ogni dataset è il prodotto di scelte umane — chi decide cosa raccogliere, come etichettarlo, cosa escludere. Se un dataset di volti contiene principalmente volti bianchi, il modello sarà pessimo nel riconoscere volti neri. Non per malvagità, ma per matematica: il modello ottimizza le sue performance sui dati che ha visto di più.

Il ricercatore Timnit Gebru, prima del suo controverso licenziamento da Google, ha documentato come i dataset più usati nel machine learning siano profondamente sbilanciati: sovra-rappresentano il Nord globale, la lingua inglese, le culture occidentali, gli uomini e le persone bianche. Quando alleniamo modelli su questi dati, non stiamo creando strumenti "oggettivi" — stiamo codificando le disuguaglianze esistenti in sistemi che sembrano neutrali.

C'è poi il costo invisibile dell'addestramento. Addestrare un singolo modello linguistico di grandi dimensioni può consumare tanta energia quanto cinque automobili nella loro intera vita utile, secondo uno studio dell'Università del Massachusetts Amherst. L'acqua necessaria per raffreddare i data center, le terre rare per i chip, il lavoro di migliaia di data labelers pagati pochi centesimi a task — tutto questo è nascosto dietro l'interfaccia elegante di un chatbot.

Il principio "garbage in, garbage out" — spazzatura dentro, spazzatura fuori — è forse la legge più importante del machine learning. Ma dovremmo aggiornarla: "bias in, bias out, amplified". I dati distorti non producono solo risultati distorti: producono risultati distorti con un'aura di oggettività scientifica che li rende ancora più pericolosi.

Machine learning e dati di addestramento

Concetti chiave

Spunto di riflessione

Per approfondire