Metodologie di analisi dati
A.A. 2020/2021
Obiettivi formativi
Questo insegnamento introduce gli studenti all'analisi statistica dei dati sperimentali e fornisce le basi per applicazioni col linguaggio C++ in ambiente ROOT con applicazioni semplici al computer. Attraverso la risoluzione di problemi lo studente potrà applicare le tecniche di analisi dati e valutare i risultati in modo quantitativo.
Risultati apprendimento attesi
Al termine dell'insegnamento lo studente avrà appreso gli elementi fondamentali dell'analisi statistica dei dati sperimentali e sarà in grado di estrarre informazioni quantitative da un campione di dati, anche attraverso l'uso di applicazioni semplici al computer. In particolare lo studente avrà sviluppato conoscenze di base del calcolo delle probabilità, tecniche di simulazione Monte Carlo, test statistici, classificazione degli eventi e metodi di stima dei parametri. Inoltre sarà in grado di realizzare semplici applicazioni in ambiente ROOT per l'analisi dei dati.
Periodo: Primo semestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.
Programma e organizzazione didattica
Edizione unica
Responsabile
Periodo
Primo semestre
Le lezioni saranno erogate da remoto in aule virtuali (piattaforma Zoom) in
collegamento sincrono, con la possibilità di interazione in tempo reale
tra gli studenti e il docente. Gli esami orali saranno organizzati su richiesta, in accordo con il docente, in aule virtuali (piattaforma Zoom).
collegamento sincrono, con la possibilità di interazione in tempo reale
tra gli studenti e il docente. Gli esami orali saranno organizzati su richiesta, in accordo con il docente, in aule virtuali (piattaforma Zoom).
Programma
1. Introduzione
Concetto di inferenza statistica. Classificazione di tipi di inferenza. Incertezza statistica e incertezza sistematica. Variabili aleatorie. Valori attesi. Trasformazioni di variabili. Propagazione degli errori.
2. Probabilità
Definizione di probabilità. Assiomi di Kolmogorov. Probabilità frequentista. Probabilità Bayesiana. Teorema di Bayes. Funzione densità di probabilità (pdf). Probabilità condizionata. Funzione di probabilità cumulata.
3. Esempi di funzioni di probabilità
Funzioni di probabilità binomiale, multinomiale, Poisson, uniforme, esponenziale, gaussiana, chi-quadro, Cauchy. Legge dei grandi numeri. Teorema del limite centrale. Esempi e applicazioni.
4. Metodo Monte Carlo
Generatori di numeri pseudocasuali. Metodo della trasformata inversa, metodo di reiezione (accept- reject). Esempi di applicazioni.
5. Stima puntuale dei parametri
Campione di osservazioni, stimatori e loro proprietà, bias. Stimatore di media, varianza e covarianza.
6. Metodo di maximum likelihood
Funzione di likelihood. Stimatori di maximum likelihood (ML). Esempi per funzione esponenziale e gaussiana. Varianza di stimatore di ML. Disuguaglianza di Cramer-Rao. Minimum variance bound e condizioni sotto le quali si raggiunge. Extended maximum likelihood (EML). ML di istogrammi. Bontà del fit. Combinazione di misure con ML. Stimatori Bayesiani.
7. Metodo dei minimi quadrati
Relazione con ML. Fit lineari. Fit di un polinomio. Fit di istogrammi. Bontà del fit con chi-quadro. Combinazione di misure con minimi quadrati.
8. Stima di intervalli
Intervalli di confidenza. Metodo frequentista. Intervallo di confidenza per stimatore a distribuzione gaussiana, per la media della distribuzione di Poisson. Intervalli di confidenza utilizzando la likelihood o il chi-quadro. Metodo Bayesiano. Limiti sulla media di una variabile poissoniana in presenza di fondo.
9. Test di ipotesi
Statistica di test. Consistenza e livello di significanza del test. Lemma di Neyman-Pearson. Bontà del fit. Definizione di p-value. Significanza di un segnale osservato. Test del chi-quadro di Pearson. Test di Komogorov-Smirnov. Teorema di Wilks.
10. Classificazione
Classificazione multivariata. Curva ROC e lemma di Neyman-Pearson. Cenni su machine learning. Tecniche di classificazione multivariata. Discriminante di Fisher. Reti neurali artificiali. Decision trees.
11. Esercitazioni con calcolatore
Generazione di numeri pseudocasuali. Metodi Monte Carlo per la generazione di pseudoesperimenti. Analisi multivariata utilizzando il software TMVA di ROOT. Fit di maximum likelihood. Fit di chi-quadro. Test di ipotesi e calcolo di p-value.
Concetto di inferenza statistica. Classificazione di tipi di inferenza. Incertezza statistica e incertezza sistematica. Variabili aleatorie. Valori attesi. Trasformazioni di variabili. Propagazione degli errori.
2. Probabilità
Definizione di probabilità. Assiomi di Kolmogorov. Probabilità frequentista. Probabilità Bayesiana. Teorema di Bayes. Funzione densità di probabilità (pdf). Probabilità condizionata. Funzione di probabilità cumulata.
3. Esempi di funzioni di probabilità
Funzioni di probabilità binomiale, multinomiale, Poisson, uniforme, esponenziale, gaussiana, chi-quadro, Cauchy. Legge dei grandi numeri. Teorema del limite centrale. Esempi e applicazioni.
4. Metodo Monte Carlo
Generatori di numeri pseudocasuali. Metodo della trasformata inversa, metodo di reiezione (accept- reject). Esempi di applicazioni.
5. Stima puntuale dei parametri
Campione di osservazioni, stimatori e loro proprietà, bias. Stimatore di media, varianza e covarianza.
6. Metodo di maximum likelihood
Funzione di likelihood. Stimatori di maximum likelihood (ML). Esempi per funzione esponenziale e gaussiana. Varianza di stimatore di ML. Disuguaglianza di Cramer-Rao. Minimum variance bound e condizioni sotto le quali si raggiunge. Extended maximum likelihood (EML). ML di istogrammi. Bontà del fit. Combinazione di misure con ML. Stimatori Bayesiani.
7. Metodo dei minimi quadrati
Relazione con ML. Fit lineari. Fit di un polinomio. Fit di istogrammi. Bontà del fit con chi-quadro. Combinazione di misure con minimi quadrati.
8. Stima di intervalli
Intervalli di confidenza. Metodo frequentista. Intervallo di confidenza per stimatore a distribuzione gaussiana, per la media della distribuzione di Poisson. Intervalli di confidenza utilizzando la likelihood o il chi-quadro. Metodo Bayesiano. Limiti sulla media di una variabile poissoniana in presenza di fondo.
9. Test di ipotesi
Statistica di test. Consistenza e livello di significanza del test. Lemma di Neyman-Pearson. Bontà del fit. Definizione di p-value. Significanza di un segnale osservato. Test del chi-quadro di Pearson. Test di Komogorov-Smirnov. Teorema di Wilks.
10. Classificazione
Classificazione multivariata. Curva ROC e lemma di Neyman-Pearson. Cenni su machine learning. Tecniche di classificazione multivariata. Discriminante di Fisher. Reti neurali artificiali. Decision trees.
11. Esercitazioni con calcolatore
Generazione di numeri pseudocasuali. Metodi Monte Carlo per la generazione di pseudoesperimenti. Analisi multivariata utilizzando il software TMVA di ROOT. Fit di maximum likelihood. Fit di chi-quadro. Test di ipotesi e calcolo di p-value.
Prerequisiti
1) Conoscenze matematiche: derivate, integrali, operazioni con matrici.
2) Conoscenza di base del linguaggio di programmazione C++ (o Python).
2) Conoscenza di base del linguaggio di programmazione C++ (o Python).
Metodi didattici
Il metodo didattico prevede lezioni frontali ed esercitazioni per la verifica e l'applicazione delle nozioni acquisite. Le esercitazioni comprendono la discussione di problemi da risolvere con il calcolatore e di alcune tecniche e programmi da utilizzare.
Materiale di riferimento
1) Glen Cowan, "Statistical data analysis", Oxford Science Publications.
2) O. Behnke et al. "Data analysis in High Energy Physics", WILEY-VCH.
2) O. Behnke et al. "Data analysis in High Energy Physics", WILEY-VCH.
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consiste in una prova orale con domande di teoria ed esercizi su argomenti svolti a lezione. E' richiesta inoltre la presentazione di una relazione scritta con la soluzione di esercizi proposti durante il corso da svolgere al calcolatore. Ogni studente dovrà preparare la propria relazione individualmente.
Docente/i