Nel 2015, Google Photos etichettò la foto di due persone nere come "gorilla". Non era un errore isolato, né il risultato di programmatori razzisti: era la conseguenza prevedibile di un sistema di riconoscimento immagini addestrato su un dataset che sotto-rappresentava le persone nere. Il sistema aveva "imparato" che certi pattern di pixel corrispondevano a "gorilla" perché nei dati di addestramento quei pattern non erano sufficientemente associati a "persona".
Questo incidente — uno dei tanti — illustra una verità fondamentale: il bias algoritmico non nasce nel codice, nasce nei dati. E i dati sono il prodotto della società che li genera. Se una società discrimina sulla base della razza, del genere o della classe sociale, i dati che produce rifletteranno quelle discriminazioni. Un algoritmo addestrato su quei dati non farà che codificare e amplificare le stesse disuguaglianze.
Ma il bias nei dati non è l'unica fonte. Safiya Umoja Noble, nel suo libro "Algorithms of Oppression", documenta come le scelte di design — come classifichiamo le informazioni, quali metriche ottimizziamo, come definiamo il "successo" — incorporano valori e priorità che non sono mai neutri. Se un sistema di selezione del personale è ottimizzato per trovare candidati "simili" ai dipendenti attuali, e l'azienda è prevalentemente bianca e maschile, il sistema perpetuerà quella composizione. La discriminazione non è un bug: è il sistema che funziona esattamente come progettato.
Ci sono almeno tre livelli di bias che dobbiamo riconoscere. Il bias storico: i dati riflettono discriminazioni passate (es. la storia creditizia riflette decenni di discriminazione nell'accesso al credito per le minoranze). Il bias di rappresentazione: alcuni gruppi sono sotto- o sovra-rappresentati nei dataset. Il bias di misurazione: le variabili che misuriamo non catturano la realtà in modo equo (es. usare il codice postale come proxy per il "rischio", sapendo che i codici postali correlano con la razza a causa della segregazione residenziale).
Riconoscere queste fonti di bias è essenziale perché ci protegge da una falsa soluzione: credere che basti "raccogliere più dati" o "migliorare l'algoritmo" per eliminare la discriminazione. Il problema non è solo tecnico — è sociale, storico, politico. E richiede soluzioni che operino su tutti questi livelli.