Alla ricerca del numero perfetto
NEWS |

Alla ricerca del numero perfetto

FRANCESCO GROSSETTI HA RILASCIATO UNA LIBRERIA INFORMATICA CHE CONSENTE DI INDIVIDUARE QUAL E' IL NUMERO DI TOPIC CHE MEGLIO DESCRIVE IL CONTENUTO DI CORPUS DI TESTI TROPPO GRANDI PER ESSERE GESTITI

Se si fosse incaricati di stabilire di che cosa parla un corpus di 200.000 di pagine di documenti, ci si troverebbe di fronte a due difficoltà. La prima, naturalmente, è quella di individuare i temi (topic) trattati in una quantità di pagine difficile da gestire manualmente. La seconda è decidere quanti topic individuare per dare una risposta che non sia né riduttiva (è improbabile, per esempio, che tre topic diano un’idea minimamente esaustiva dei temi trattati in 200.000 pagine), né ingestibile (con 3.000 topic saremmo probabilmente esaurienti, ma di difficile interpretazione).
 
Una delle migliori soluzioni del problema dell’individuazione dei topic è la tecnica della Latent Dirichlet Allocation (LDA), messa a punto nel 2003. Basandosi su di essa, Francesco Grossetti (Dipartimento di Accounting) e Craig Lewis (Vanderbilt University) propongono oggi una soluzione all’individuazione del numero ottimale di topic attraverso un paper scientifico (“A Statistical Approach for Optimal Topic Model Identification”, preprint) e OpTop, un pacchetto informatico che ne implementa la metodologia.
 
“Quello che presentiamo”, dice Grossetti, “è un test statistico, che prescinde dal contesto e dal significato dei topic. In termini tecnici, ogni topic è una collezione ordinata di tutte le parole contenute nel corpus, il cui ordine rappresenta la rilevanza in un particolare topic. È il ricercatore che utilizza questo strumento a doverne interpretare le risposte, assegnando un’etichetta a ogni topic e facendo eventuali scelte di accorpamento di topic molto vicini per significato”.
 
Da parte sua, Grossetti ha già fatto uso della tecnica – e del conseguente utilizzo del giudizio interpretativo – in un paper sulla disclosure finanziaria, che individua i fattori di rischio esplicitati dalle imprese nei loro documenti contabili.

di Fabio Todesco
Bocconi Knowledge newsletter

Persone

  • Adam Eric Greenberg in una selezione finale della American Marketing Association

    Un lavoro sui fattori psicologici che influenzano la decisione di richiedere i benefici pensionistici negli Stati Uniti e' stato selezionato per il Paul E. Green Award  

  • Riconoscimento per Graziella Romeo

    L'International Journal of Constitutional Law ha una nuova Associate Editor  

Seminari

  Agosto 2021  
Lun Mar Mer Gio Ven Sab Dom
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31          

Seminari

  • The Populist Dynamic: Experimental Evidence on the Effects of Countering Populism (joint with Vincenzo Galasso, Massimo Morelli & Piero Stanig)-Tommaso Nannicini (Bocconi University)

    TOMMASO NANNICINI - Università Bocconi

    Room 3b3sr01 - Roentgen 1

  • Prediction of neural activity in connectome-constrained recurrent networks with Manuel Beiran

    MANUEL BEIRAN - Columbia University, US

    Zoom meetings streaming in room 3-E4-SR03