Migliorare accuratezza, affidabilita' e interpretabilita' del calcolo distribuito

Migliorare accuratezza, affidabilita' e interpretabilita' del calcolo distribuito

LA RICERCA DI BOTOND SZABO MIRA A DARE BASI TEORICHE ALLE PROCEDURE DI BLACK BOX UTILIZZATE PER FAR FRONTE ALL'ESPLOSIONE SENZA PRECEDENTI DI DATI DISPONIBILI

Un nuovo studio di Botond Szabo (del Dipartimento di Scienze delle Decisioni della Bocconi) pone le basi per metodi di calcolo distribuito più accurati, affidabili e interpretabili.
 
Nel mondo dei big data, quando c'è la necessità di stimare molti parametri in modelli statistici molto complessi che fanno uso di grandi quantità di informazioni disponibili, i tempi di calcolo diventano insostenibili anche con i supercomputer più veloci. Una delle strategie sviluppate per affrontare il problema è il calcolo distribuito (o parallelo). I dati (o i compiti, in alcuni casi) vengono suddivisi tra molte macchine e solo le informazioni di sintesi (i risultati dei calcoli) vengono inviate a una postazione centrale, ad esempio una stazione meteorologica, un osservatorio astronomico o un sistema di controllo del traffico. Questo metodo, inoltre, permette di contenere i problemi di privacy, poiché la maggior parte dei dati non deve essere spostata.
 
Infografica di Weiwei Chen

Tuttavia, anche la comunicazione di informazioni di sintesi tra i server può rivelarsi costosa e gli statistici hanno preso in prestito dagli ingegneri elettronici l'idea di limitare la larghezza di banda. “L'obiettivo,” dice Szabo, “è ridurre al minimo il flusso di dati, perdendo il minor numero possibile di informazioni. Inoltre, il calcolo parallelo è spesso una procedura black-box, cioè una procedura che trasforma gli input in output in modi non ben compresi, e questo rende i risultati non completamente interpretabili, né affidabili. Sarebbe auspicabile trovare modelli matematici che diano un fondamento teorico a tali procedure.” Botond Szabo è beneficiario di un grant ERC per studiare questi problemi.
 
Nel suo lavoro con Lasse Vuursteen (Delft University of Technology) e Harry van Zanten (Vrije Universiteit Amsterdam), Szabo elabora i test migliori per ridurre al minimo la perdita di informazioni in un contesto distribuito in cui i dati sono suddivisi su più macchine e la loro comunicazione a una macchina centrale è limitata a una determinata quantità di bit.
 
In statistica, un test è una procedura che permette di dire se un'ipotesi su un parametro è vera e quanto si può fare affidamento su questo risultato. In altre parole, quantifica l'incertezza. Quando leggiamo che un'ipotesi è “statisticamente non significativa”, vuol dire che nei dati non è stata trovata alcuna prova a sostegno dell'ipotesi.
 
“I test che abbiamo sviluppato nel paper permettono di raggiungere la migliore precisione per una data quantità di informazioni trasmesse o la quantità minima di informazioni da trasmettere per raggiungere il livello di precisione necessario,” spiega Szabo.
 
L'articolo è un lavoro fondamentale, che utilizza un caso matematico idealizzato, ma Szabo sta già lavorando su impostazioni più complesse. “Nel lungo termine,” afferma, “potremmo sperare di ottenere algoritmi di comunicazione più efficienti, supportati da garanzie teoriche.”
 
Botond Szabo, Lasse Vuursteen, Harry Van Zanten, “Optimal High-Dimensional and Nonparametric Distributed Testing Under Communication Constraints.” Annals of Statistics, 51(3): 909-934 (June 2023). DOI: https://dx.doi.org/10.1214/23-AOS2269.
 

di Fabio Todesco
Bocconi Knowledge newsletter

News

  • I fornitori di cure a lungo termine per gli anziani devono evolversi

    Presentato il 6 Rapporto Osservatorio Long Term Care promosso dal Cergas con Essity  

  • Postdoc Bocconi invitato a una conferenza di alto profilo

    Gianluigi Riva fara' parte di un gruppo di giovani scienziati che parteciperanno nel corso dell'anno a un incontro con alcuni premi Nobel  

Seminari

  Aprile 2024  
Lun Mar Mer Gio Ven Sab Dom
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          

Seminari

  • THE FAILURE TO PREVENT FRAUD IN THE UK CORPORATE ENVIRONMENT
    Seminar of Crime Law

    NICHOLAS RYDER - Cardiff University

    Room 1-C3-01, Via Roentgen 1

  • Clare Balboni - Firm Adaptation in Production Networks: Evidence from Extreme Weather Events in Pakistan

    CLARE BALBONI - LSE

    Alberto Alesina Seminar Room 5.e4.sr04, floor 5, Via Roentgen 1