Alla ricerca del numero perfetto
NEWS |

Alla ricerca del numero perfetto

FRANCESCO GROSSETTI HA RILASCIATO UNA LIBRERIA INFORMATICA CHE CONSENTE DI INDIVIDUARE QUAL E' IL NUMERO DI TOPIC CHE MEGLIO DESCRIVE IL CONTENUTO DI CORPUS DI TESTI TROPPO GRANDI PER ESSERE GESTITI

Se si fosse incaricati di stabilire di che cosa parla un corpus di 200.000 di pagine di documenti, ci si troverebbe di fronte a due difficoltà. La prima, naturalmente, è quella di individuare i temi (topic) trattati in una quantità di pagine difficile da gestire manualmente. La seconda è decidere quanti topic individuare per dare una risposta che non sia né riduttiva (è improbabile, per esempio, che tre topic diano un’idea minimamente esaustiva dei temi trattati in 200.000 pagine), né ingestibile (con 3.000 topic saremmo probabilmente esaurienti, ma di difficile interpretazione).
 
Una delle migliori soluzioni del problema dell’individuazione dei topic è la tecnica della Latent Dirichlet Allocation (LDA), messa a punto nel 2003. Basandosi su di essa, Francesco Grossetti (Dipartimento di Accounting) e Craig Lewis (Vanderbilt University) propongono oggi una soluzione all’individuazione del numero ottimale di topic attraverso un paper scientifico (“A Statistical Approach for Optimal Topic Model Identification”, preprint) e OpTop, un pacchetto informatico che ne implementa la metodologia.
 
“Quello che presentiamo”, dice Grossetti, “è un test statistico, che prescinde dal contesto e dal significato dei topic. In termini tecnici, ogni topic è una collezione ordinata di tutte le parole contenute nel corpus, il cui ordine rappresenta la rilevanza in un particolare topic. È il ricercatore che utilizza questo strumento a doverne interpretare le risposte, assegnando un’etichetta a ogni topic e facendo eventuali scelte di accorpamento di topic molto vicini per significato”.
 
Da parte sua, Grossetti ha già fatto uso della tecnica – e del conseguente utilizzo del giudizio interpretativo – in un paper sulla disclosure finanziaria, che individua i fattori di rischio esplicitati dalle imprese nei loro documenti contabili.

di Fabio Todesco
Bocconi Knowledge newsletter

Persone

  • Pietro Sirena e Francesco Paolo Patti negli organi direttivi dello European Law Institute

    Due professori del Dipartimento di studi giuridici della Bocconi sono stati chiamati a ricoprire i ruoli di tesoriere e di membro del Consiglio di ELI  

  • Andrea Colli racconta l'economia degli Sposi Promessi

    Nell'ambito di un progetto di Piccolo Teatro e Intesa Sanpaolo, lo storico spiega il contesto in cui e' ambientata la prima stesura dei Promessi Sposi di Alessandro Manzoni  

Seminari

  Settembre 2021  
Lun Mar Mer Gio Ven Sab Dom
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30      

Seminari

  • Going Digital to Conform and Perform: Learning Logics Underpinning Digital Advertising Spending

    Seoyoung KIM, University of Georgia   Seminario Job Market. Per informazioni contattare dip.mkt@unibocconi.it

    Webinar

  • Explaining Greenium in a Macro-Finance Integrated Assessment Model

    Biao Yang, Bocconi University Practice for Job Market

    Aula 7, Via Bocconi 8