Modulo 02

Da dove nasce il bias algoritmico

Il bias non è un errore tecnico ma un riflesso delle disuguaglianze sociali codificate nei dati.

8 min3 risorse

Nel 2015, Google Photos etichettò la foto di due persone nere come "gorilla". Non era un errore isolato, né il risultato di programmatori razzisti: era la conseguenza prevedibile di un sistema di riconoscimento immagini addestrato su un dataset che sotto-rappresentava le persone nere. Il sistema aveva "imparato" che certi pattern di pixel corrispondevano a "gorilla" perché nei dati di addestramento quei pattern non erano sufficientemente associati a "persona".

Questo incidente — uno dei tanti — illustra una verità fondamentale: il bias algoritmico non nasce nel codice, nasce nei dati. E i dati sono il prodotto della società che li genera. Se una società discrimina sulla base della razza, del genere o della classe sociale, i dati che produce rifletteranno quelle discriminazioni. Un algoritmo addestrato su quei dati non farà che codificare e amplificare le stesse disuguaglianze.

Ma il bias nei dati non è l'unica fonte. Safiya Umoja Noble, nel suo libro "Algorithms of Oppression", documenta come le scelte di design — come classifichiamo le informazioni, quali metriche ottimizziamo, come definiamo il "successo" — incorporano valori e priorità che non sono mai neutri. Se un sistema di selezione del personale è ottimizzato per trovare candidati "simili" ai dipendenti attuali, e l'azienda è prevalentemente bianca e maschile, il sistema perpetuerà quella composizione. La discriminazione non è un bug: è il sistema che funziona esattamente come progettato.

Ci sono almeno tre livelli di bias che dobbiamo riconoscere. Il bias storico: i dati riflettono discriminazioni passate (es. la storia creditizia riflette decenni di discriminazione nell'accesso al credito per le minoranze). Il bias di rappresentazione: alcuni gruppi sono sotto- o sovra-rappresentati nei dataset. Il bias di misurazione: le variabili che misuriamo non catturano la realtà in modo equo (es. usare il codice postale come proxy per il "rischio", sapendo che i codici postali correlano con la razza a causa della segregazione residenziale).

Riconoscere queste fonti di bias è essenziale perché ci protegge da una falsa soluzione: credere che basti "raccogliere più dati" o "migliorare l'algoritmo" per eliminare la discriminazione. Il problema non è solo tecnico — è sociale, storico, politico. E richiede soluzioni che operino su tutti questi livelli.

Concetti chiave

  • Il bias algoritmico nasce dai dati, non dal codice: i dati riflettono le disuguaglianze della società
  • Le scelte di design (metriche, classificazioni, definizioni di successo) incorporano valori non neutri
  • Esistono almeno tre livelli di bias: storico, di rappresentazione e di misurazione
  • Non basta "migliorare i dati" — il problema richiede soluzioni socio-tecniche

Spunto di riflessione

Pensa a una decisione importante della tua vita che potrebbe essere influenzata da un algoritmo (credito, assicurazione, assunzione). Quali dati storici potrebbe usare quel sistema? Quei dati riflettono il tuo potenziale reale o le circostanze storiche del tuo gruppo sociale?

Per approfondire