SCIENZE DELLE DECISIONI | 24/02/2022

Capire l'incertezza negli algoritmi di machine learning

BOTOND SZABO HA OTTENUTO UN ERC STARTING GRANT PER VALUTARE LE PROPRIETA' FONDAMENTALI DI METODI STATISTICI E DI MACHINE LEARNING AMPIAMENTE UTILIZZATI QUANDO SI TRATTANO GRANDI QUANTITA' DI DATI COMPLESSI, COME NEL MEDICAL IMAGING, NELLE AUTO A GUIDA AUTONOMA O NELLA DATAZIONE DEL BIG BANG

Se vogliamo capire quando l'universo è nato e quando finirà, facciamo uso della costante di Hubble, una misura dell'attuale tasso di espansione dell'universo. La costante di Hubble viene calcolata con metodi statistici che producono sia una stima che un intervallo di confidenza (l’intervallo all’interno del quale è più probabile che si collochi l’effettivo valore della variabile, ovvero una misura dell'incertezza). L'unico problema: i metodi statistici attualmente utilizzati per stimare la costante forniscono risultati contraddittori e intervalli di confidenza che non si sovrappongono.

“O la fisica sottostante è sbagliata, o i metodi statistici potrebbero essere migliorati,” dice Botond Szabo. Professore associato presso il Dipartimento di Scienze delle Decisioni della Bocconi, Szabo ha ottenuto un ERC Starting Grant da 1,5 mln di euro per un progetto (BigBayesUQ - The missing mathematical story of Bayesian uncertainty quantification for big data) volto a sviluppare tecniche matematiche in grado di valutare l'incertezza insita nelle stime derivate da algoritmi di machine learning e, di conseguenza, la loro affidabilità nel contesto di modelli statistici. Tali algoritmi sono concepiti per essere utilizzati quando è coinvolta una grande quantità di dati (come nell'esempio della costante di Hubble e in molti altri casi e discipline).

Nel mondo dei big data, quando c'è la necessità di stimare molti parametri in modelli molto complessi sfruttando una grande quantità di informazioni disponibili, il tempo di calcolo diventa insostenibile. Negli ultimi anni sono state quindi sperimentate diverse scorciatoie, sotto forma di algoritmi di machine learning, in grado di velocizzare il processo. L'evidenza sembra però suggerire che i risultati di questi algoritmi non sono sempre affidabili.

“I veri problemi non sorgono quando sottovalutiamo l'incertezza,” dice il Szabo. “È l’eccesso di fiducia nella stima a poter causare grossi problemi quando si interpretano immagini mediche o si progetta un'auto a guida autonoma, due dei campi in cui vengono utilizzati tali algoritmi.”

Con il suo progetto Szabo vuole capire quando l'incertezza è misurata correttamente e quando non lo è, al fine di fornire garanzie statistiche ai metodi di machine learning. “Guardo le tecniche di machine learning da una prospettiva statistica e matematica e studio le loro proprietà fondamentali nei modelli statistici,” dice. “Molti algoritmi di machine learning sono considerati scatole nere, capaci di ottenere risultati in modi non ben compresi. Cercherò di aprire la scatola nera e capire se il suo funzionamento è affidabile.”

Nel suo lavoro, Szabo si concentrerà principalmente - ma non esclusivamente - su una classe di modelli statistici, chiamati modelli bayesiani. “Il vantaggio dei modelli bayesiani nell'ambito di questo progetto,” dice, “è che i loro risultati incorporano già una misura di incertezza.”

“Sono entrato in Bocconi nel settembre 2021,” conclude, “e sono felice di far parte di un ambiente scientificamente forte come il Dipartimento di Scienze delle Decisioni. Il suo gruppo di Statistics and Data Science, leader a livello internazionale, ha competenze che vanno dalle basi matematiche agli algoritmi, con forti legami con varie applicazioni. Questo è l’ambiente ideale per il mio progetto.”

di Fabio Todesco

Lun	Mar	Mer	Gio	Ven	Sab	Dom
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Capire l'incertezza negli algoritmi di machine learning

News

I fornitori di cure a lungo termine per gli anziani devono evolversi

Postdoc Bocconi invitato a una conferenza di alto profilo

Seminari

Seminari

Dave Donaldson - Putting Quantitative Models to the Test: An Application to Trump's Trade War

Camillo De Lellis: Besicovitch's 1/2 problem and linear programming