Modulo 01

Machine learning e dati di addestramento

Come le macchine "imparano" dai dati, perché i dati non sono mai neutri e il costo invisibile dell'addestramento.

9 min3 risorse

Il machine learning — l'apprendimento automatico — è il cuore dell'AI contemporanea. L'idea di base è sorprendentemente semplice: invece di programmare esplicitamente un computer per eseguire un compito, gli si forniscono enormi quantità di dati e si lascia che trovi da solo i pattern. Un modello di machine learning è essenzialmente una funzione matematica molto complessa che, dato un input, produce l'output più "probabile" secondo i pattern nei dati di addestramento.

Prendiamo un esempio concreto: un sistema che deve distinguere foto di gatti da foto di cani. Non scriviamo regole come "se ha le orecchie a punta è un gatto". Forniamo al modello milioni di foto etichettate ("gatto", "cane") e il modello, attraverso un processo iterativo chiamato backpropagation, aggiusta i suoi parametri interni fino a minimizzare gli errori. Alla fine, il modello ha "imparato" a distinguere gatti e cani — non perché capisca cosa siano, ma perché ha interiorizzato pattern statistici nelle configurazioni dei pixel.

Questo processo funziona incredibilmente bene per molti compiti: riconoscimento di immagini, traduzione, trascrizione del parlato. Ma nasconde un problema fondamentale: i dati non sono mai neutri. Ogni dataset è il prodotto di scelte umane — chi decide cosa raccogliere, come etichettarlo, cosa escludere. Se un dataset di volti contiene principalmente volti bianchi, il modello sarà pessimo nel riconoscere volti neri. Non per malvagità, ma per matematica: il modello ottimizza le sue performance sui dati che ha visto di più.

Il ricercatore Timnit Gebru, prima del suo controverso licenziamento da Google, ha documentato come i dataset più usati nel machine learning siano profondamente sbilanciati: sovra-rappresentano il Nord globale, la lingua inglese, le culture occidentali, gli uomini e le persone bianche. Quando alleniamo modelli su questi dati, non stiamo creando strumenti "oggettivi" — stiamo codificando le disuguaglianze esistenti in sistemi che sembrano neutrali.

C'è poi il costo invisibile dell'addestramento. Addestrare un singolo modello linguistico di grandi dimensioni può consumare tanta energia quanto cinque automobili nella loro intera vita utile, secondo uno studio dell'Università del Massachusetts Amherst. L'acqua necessaria per raffreddare i data center, le terre rare per i chip, il lavoro di migliaia di data labelers pagati pochi centesimi a task — tutto questo è nascosto dietro l'interfaccia elegante di un chatbot.

Il principio "garbage in, garbage out" — spazzatura dentro, spazzatura fuori — è forse la legge più importante del machine learning. Ma dovremmo aggiornarla: "bias in, bias out, amplified". I dati distorti non producono solo risultati distorti: producono risultati distorti con un'aura di oggettività scientifica che li rende ancora più pericolosi.

Concetti chiave

  • Il machine learning trova pattern nei dati, non "capisce" — è statistica su larga scala
  • I dati di addestramento non sono mai neutri: riflettono le scelte e i bias di chi li crea
  • I dataset più usati sovra-rappresentano il Nord globale, l'inglese, gli uomini bianchi
  • Il costo ambientale e umano dell'addestramento è enorme e spesso invisibile

Spunto di riflessione

Pensa a un servizio che usi quotidianamente e che si basa su machine learning (es. suggerimenti di Netflix, traduttore automatico, filtro spam). Quali dati sono stati usati per addestrarlo? Chi potrebbe essere sotto-rappresentato in quei dati?

Per approfondire