NEWS | 30/06/2022

Quando le macchine imparano i pregiudizi

SE CHIAMATI A COMPLETARE DELLE FRASI GENERICHE, I MODELLI LINGUISTICI PIU' DIFFUSI LE COMPLETANO PIU' SPESSO IN MODO OFFENSIVO SE IL SOGGETTO E' UNA DONNA ANZICHE' UN UOMO E ANCORA DI PIU' SE IL SOGGETTO E' LGBTQIA+

Tre ricercatori del Dipartimento di Computing Sciences della Bocconi hanno dimostrato l’esistenza di un forte bias che penalizza la comunità LGBTQIA+ nel più diffuso e potente modello linguistico al mondo (BERT), utilizzato dalla comunità scientifica per sviluppare innumerevoli strumenti di machine learning legati al linguaggio.

Se richiesto di completare una frase generica, il modello linguistico BERT la completa più spesso in modo offensivo se il soggetto è una donna anziché un uomo e ancora di più (fino all’87% dei casi per termini specifici di alcune identità queer) se il soggetto è LGBTQIA+.

Tra il 2018 e il 2019 il mondo del Natural Language Processing (NLP) è stato rivoluzionato dallo sviluppo, da parte di Google, di un nuovo modello linguistico, BERT. I modelli linguistici servono alle macchine a capire il linguaggio naturale in modo simile a quanto fanno gli umani e BERT ha dimostrato fin da subito di ottenere grandi risultati. È proprio grazie a BERT che Google è in grado di capire in base al contesto che cosa intendiamo con una parola. Quando digitiamo “cuffia”, per esempio, Google ci propone immagini sia di berretti, sia di ricevitori auricolari, ma se digitiamo “cuffia calda” ci mostra solo i berretti e se digitiamo “cuffia per ascoltare” solo i ricevitori.

Uno dei metodi utilizzati per addestrare i modelli linguistici è il “masked language modeling”: si propone al sistema una frase con un termine mancante e si chiede al modello di inserire il termine più probabile, ripetendo l’esercizio fino a quando le previsioni sono accurate.

Immagine con link ad articoli su temi simili. L'immagine che raffigura i colori dell'arcobaleno rimanda all'articolo intitolato: Pride: le discipline STEM combattono la discriminazione algoritmica

Immagine con link ad articoli su temi simili. L'immagine di due schwa rimanda all'articolo intitolato: Come rendere piÃ¹ inclusive le tecnologie linguistiche

Immagine con link ad articoli su temi simili. L'immagine di una persona incappucciata e simboli che richiamano il cyber bullismo rimanda all'articolo intitolato: Le macchine sbagliano: come evitare che gay e donna vengano scambiate per parole offensive

Immagine con link ad articoli su temi simili. L'immagine di un martello appoggiato su un computer rimanda all'articolo intitolato: Come proteggere i diritti dell'utente di fronte a un algoritmo

Debora Nozza, Federico Bianchi e Dirk Hovy del Dipartimento di Computing Sciences della Bocconi hanno chiesto a BERT di svolgere un esercizio simile (completare alcune frasi, scritte in sei lingue diverse) per sviluppare una misura della probabilità di completamento con linguaggio offensivo (HONEST – Measuring Hurtful Sentence Completion in Language Models) e verificare se esista un bias che penalizzi le donne o la comunità LGBTQIA+.

“Abbiamo osservato una percentuale di bias preoccupante,” afferma Nozza. Il 4% delle frasi a a soggetto maschile e il 9% di quelle a soggetto femminile vengono completate con espressioni riferiti alla sfera sessuale. Se la frase è legata in qualche modo a identità queer, la percentuale sale ancora: a seconda del termine, i completamenti offensivi compaiono con una media del 13% fino ad arrivare all’87%.

“Il fenomeno dei completamenti offensivi riguarda ogni genere di identità,” conclude Nozza, “ma nel caso di identità non queer gli insulti sono per lo più generici, per le identità queer richiamano, nella gran parte dei casi, la sfera sessuale.”

di Fabio Todesco

Lun	Mar	Mer	Gio	Ven	Sab	Dom
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Quando le macchine imparano i pregiudizi

Persone

Adam Eric Greenberg in una selezione finale della American Marketing Association

Riconoscimento per Graziella Romeo

Seminari

Seminari

Dave Donaldson - Putting Quantitative Models to the Test: An Application to Trump's Trade War

Camillo De Lellis: Besicovitch's 1/2 problem and linear programming