La scienza dei dati su larghissima scala: un'arte trasformata in scienza

La scienza dei dati su larghissima scala: un'arte trasformata in scienza

GIACOMO ZANELLA E' STATO FINANZIATO DALL'EUROPEAN RESEARCH COUNCIL PER COMPRENDERE MEGLIO E SVILUPPARE ALGORITMI COMPUTAZIONALI PER MODELLI PROBABILISTICI SU LARGA SCALA

Ai bei vecchi tempi - se mai sono esistiti - avevamo modelli che miravano a spiegare i fenomeni attraverso un numero limitato di parametri e che potevamo testare utilizzando una piccola quantità di dati. Quando raccoglievamo nuovi dati, dovevamo solo inserirli nel modello e calcolare il risultato.
 
Oggi, i modelli statistici e di machine learning possono avere milioni di parametri e possiamo raccogliere miliardi di dati eterogenei provenienti da fonti diverse, e nessun computer al mondo è in grado di elaborare tali quantità in un arco di tempo ragionevole. Ecco a cosa servono gli algoritmi computazionali: sono processi che arrivano più o meno agli stessi risultati del modello originale, ma in modo più semplice e veloce.
 
Ci sono però alcuni problemi. Non sempre riusciamo a capire esattamente perché un algoritmo computazionale funziona e, se funziona, non possiamo essere certi che funzionerà altrettanto bene con insiemi di dati diversi o notevolmente più grandi.
 
“Questa mancanza di comprensione si traduce nell'uso comune di algoritmi inefficienti e in gran parte non ottimali, e rende la progettazione di algoritmi efficienti per modelli di uso pratico una specie di arte,” dice Giacomo Zanella, Assistant Professor presso il Dipartimento di Scienze delle Decisioni della Bocconi.
 
Zanella ha ottenuto un ERC Starting Grant di €1,5mln dallo European Research Council (ERC) per comprendere meglio gli algoritmi computazionali per modelli probabilistici su larga scala, rendendo così la loro progettazione non più un'arte, ma una scienza. Il progetto (PrSc-HDBayLe - Provable scalability for high-dimensional Bayesian Learning) mira a individuare, con tecniche matematiche rigorose e innovative, gli algoritmi più promettenti e a produrre linee guida per migliorarli e svilupparne di nuovi.
 

 
Gli algoritmi studiati da Zanella hanno tre proprietà: sono di uso comune (“Voglio sviluppare conoscenze rilevanti per i professionisti,” dice), sono dimostrabilmente scalabili e affidabili. In un algoritmo scalabile, il tempo necessario al computer per produrre un risultato aumenta solo in modo lineare, cioè nella stessa proporzione di dati o parametri: se i dati sono il doppio, ci vorrà due volte il tempo. Tali algoritmi promettono di rimanere gestibili anche se il numero di parametri e di dati continua ad aumentare.
 
L'affidabilità può essere garantita solo da una corretta comprensione del funzionamento di un algoritmo. Ciò comporta una quantificazione rigorosa dell'incertezza associata al risultato dell'analisi, come avviene comunemente nei modelli statistici bayesiani, che saranno al centro del progetto.
 
“Il mio campo è la Statistica Computazionale,” dice Zanella, “un campo intrinsecamente interdisciplinare all'incrocio tra Statistica, Machine Learning e Matematica Applicata. Il mio approccio di ricerca si colloca all'intersezione tra metodologia (progettazione di algoritmi scalabili e affidabili) e teoria (dimostrazione della loro scalabilità).”
 
I risultati del progetto aiuteranno ad affrontare le sfide statistiche e computazionali dovute all'alta dimensionalità (il numero crescente di caratteristiche registrate per ogni individuo); alla potenziale presenza di interazioni (le combinazioni virtualmente infinite di caratteristiche che potrebbero influenzare l'esito effettivo); ai dati mancanti e ai bias di campionamento; e alla necessità di combinare dati provenienti da fonti diverse (ad esempio, database differenti con vari gradi di affidabilità; dati a livello individuale o aggregato; ecc.)
 
Queste sfide si presentano abitualmente nei problemi di scienza dei dati della vita reale, con esempi che vanno dalla stima del numero di vittime di guerra attraverso rapporti incompleti alla previsione dei risultati elettorali combinando diverse fonti di dati grandi, ampi e “sporchi”.
 
Immagine con link ad articoli su temi simili. L'immagine dello slogan Knowledge that Matters rimanda all'articolo intitolato: Alla Bocconi quasi 6 milioni di finanziamento alla ricerca dall'Europa Immagine con link ad articoli su temi simili. L'immagine di una famiglia e una sedia a rotelle rimanda all'articolo intitolato: L'impatto dei figli disabili sulle famiglie Immagine con link ad articoli su temi simili. L'immagine di computer e grafici rimanda all'articolo intitolato: Il funzionamento nascosto dei mercati OTC

Gli ERC Starting Grants possono essere assegnati a ricercatori di talento all'inizio della carriera, di qualsiasi nazionalità e con 2-7 anni di esperienza dal completamento del PhD, un track record scientifico molto promettente e un'eccellente proposta di ricerca. Per i ricercatori nelle fasi successive della loro carriera, l’ERC fornisce Consolidator Grants e Advanced Grants.
 

di Fabio Todesco
Bocconi Knowledge newsletter

News

  • I fornitori di cure a lungo termine per gli anziani devono evolversi

    Presentato il 6 Rapporto Osservatorio Long Term Care promosso dal Cergas con Essity  

  • Postdoc Bocconi invitato a una conferenza di alto profilo

    Gianluigi Riva fara' parte di un gruppo di giovani scienziati che parteciperanno nel corso dell'anno a un incontro con alcuni premi Nobel  

Seminari

  Novembre 2022  
Lun Mar Mer Gio Ven Sab Dom
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30        

Seminari

  • EXITING THE ENERGY CHARTER TREATY UNDER THE LAW OF TREATIES
    Bocconi Conversations in International Law

    ROGER MICHAEL O'KEEFE - Università Bocconi
    LORAND BARTELS - University of Cambridge
    TIBISAY MORGANDI - Queen Mary University of London

    Seminar Room 1.C3-01

  • Dave Donaldson - Putting Quantitative Models to the Test: An Application to Trump's Trade War

    DAVE DONALDSON - MIT

    Alberto Alesina Seminar Room 5.e4.sr04, floor 5, Via Roentgen 1