Il machine learning che usa le campagne elettorali per capire il linguaggio dei politici
ECONOMIA |

Il machine learning che usa le campagne elettorali per capire il linguaggio dei politici

MASSIMO MORELLI E COLLEGHI HANNO SVILUPPATO UN METODO PER ANALIZZARE I DISCORSI PARLAMENTARI BASANDOSI SU TESTI GIA' CODIFICATI PROVENIENTI DAI PROGRAMMI ELETTORALI

Il numero crescente di pubblicazioni che utilizzano il testo come fonte principale di dati va di pari passo con lo sviluppo di nuovi metodi di analisi, basati su tecniche di machine learning. Nel loro ultimo lavoro su Political Analysis, Massimo Morelli (Dipartimento di Economia della Bocconi), Moritz Osnabrügge (Durham University) ed Elliott Ash (ETH di Zurigo) hanno sviluppato un metodo per analizzare il testo dei discorsi parlamentari basandosi su testi già codificati dei programmi elettorali.
 
Immagine con link ad articoli su temi simili. L'immagine del Campidoglio rimanda all'articolo intitolato: Il machine learning ci aiuta a capire i testi legislativi Immagine con link ad articoli su temi simili. L'immagine di alcuni elementi che richiamano i politici e la burocrazia rimanda all'articolo intitolato: Nell'instabilità politica i cattivi politici prosperano e rovinano la burocrazia Immagine con link ad articoli su temi simili. L'immagine di una persona che guarda la televisione rimanda all'articolo intitolato: Fango su di te, vergogna su di me, voti al terzo candidato

Questo nuovo metodo “cross-domain” presenta diversi vantaggi, come l'abbattimento dei costi e la possibilità di affidarsi a un corpus di testi già codificati da ricercatori esperti. Gli autori, applicando questo nuovo metodo anche ai discorsi parlamentari in Nuova Zelanda, hanno osservato che le donne parlamentari discutono di argomenti legati al welfare molto più spesso dei maschi.
 
La maggior parte degli studi esistenti che impiegano l'analisi del testo utilizzano il cosiddetto apprendimento supervisionato "within-domain". Questo metodo prevede che il software venga addestrato su un sottocampione di testo codificato a mano, al fine di espandere il metodo utilizzato da un ricercatore esperto su corpi di testo più ampi. Sfortunatamente, questi metodi hanno due limiti principali: il sottocampione su cui viene addestrata la macchina deve essere dello stesso tipo del corpo più grande (ecco perché si chiama "within-domain") e un codificatore umano è ancora necessario per eseguire le annotazioni iniziali sul sottocampione. In particolare, il costo della codifica umana può essere piuttosto elevato e può gravare ulteriormente sui vincoli di budget del ricercatore.
 
Per ovviare a queste limitazioni, molti studiosi hanno utilizzato i cosiddetti modelli non supervisionati, in cui un algoritmo fornisce una distribuzione di probabilità interpretabile sull'argomento di cui ci si aspetta che un corpo di testo parli. Questo metodo non richiede una codifica manuale del testo. Tuttavia, gli autori sostengono che, anche se può fornire risultati interessanti, presenta alcuni limiti. In particolare, i risultati di questi modelli non sono facili da interpretare, non funzionano su corpus multilingue e possono essere più sensibili alle perturbazioni non osservate nei dati.
 
Per ovviare ai problemi legati alla codifica tradizionale e ai modelli non supervisionati, gli autori hanno implementato un metodo di apprendimento supervisionato che viene addestrato sul Manifesto Project (un archivio di testi codificati e analizzati provenienti da programmi elettorali e discorsi di diversi Paesi) e applicato a un dominio diverso, ovvero i discorsi parlamentari. Questo fornisce un ampio corpus di testi multilingue già codificati da ricercatori esperti su diverse dimensioni politiche, come la pianificazione economica, l'ambiente e molte altre. In questo modo, Morelli e i coautori possono superare la necessità di una nuova codifica manuale nello studio dei discorsi parlamentari. Ovviamente, ad oggi, il metodo può essere applicato solo su corpus linguisticamente adiacenti al testo originale codificato. Ciononostante, fornisce risultati promettenti se confrontato con i testi analizzati tradizionalmente.
 
Infine, gli autori illustrano due applicazioni trasversali di questo metodo. In primo luogo, scoprono che dopo la riforma elettorale del 1993 in Nuova Zelanda, i discorsi parlamentari hanno mostrato una crescente attenzione per le questioni legate all'autorità politica, come la stabilità politica e la competenza dei partiti. Ciò è probabilmente legato al fatto che la transizione verso un sistema elettorale proporzionale ha incentivato la creazione di nuovi partiti e la formazione di alleanze, modificando l'esperienza complessiva della stabilità politica nel Paese. Poi, studiano anche come il genere dei parlamentari sia correlato alla partecipazione al dibattito su determinati argomenti. In particolare, scoprono che le donne parlano significativamente di più di welfare, mentre gli uomini sono più interessati alle relazioni esterne e alla politica estera.

Moritz Osnabrügge, Elliott Ash, Massimo Morelli, “Cross-Domain Topic Classification for Political Texts.” Political Analysis, Early View, DOI: https://doi.org/10.1017/pan.2021.37.
 

di Umberto Platini
Bocconi Knowledge newsletter

News

  • Caselli, Ventoruzzo e Mosca nel Comitato per la riforma dei mercati di capitali

    Al via le attivita' che condurranno al nuovo Testo Unico  

  • Assegnati i Premi di Eccellenza nella Ricerca Bocconi per il 2024

    Il riconoscimento va ai docenti le cui pubblicazioni sono state accettate dalle riviste o dagli editori di maggior prestigio  

Seminari

  Marzo 2024  
Lun Mar Mer Gio Ven Sab Dom
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

Seminari

  • Jacopo Perego: Competitive Markets for Personal Data

    JACOPO PEREGO - Columbia Business School

    Room 3-E4-SR03 (Rontgen)

  • Alessia Caponera - Multiscale CUSUM tests for time-dependent spherical random fields

    ALESSIA CAPONERA - LUISS

    Room 3-E4-SR03 (Roentgen)