Statistica matematica avanzata

A.A. 2024/2025
9
Crediti massimi
78
Ore totali
SSD
MAT/06
Lingua
Italiano
Obiettivi formativi
L'obiettivo principale dell'insegnamento è di introdurre gli aspetti sia teorici che applicativi dei moderni metodi della Statistica Matematica, sia multivariata che computazionale, con particolare attenzione alle tecniche per l'analisi di Big Data. Attraverso le attività di laboratorio, si vuole inoltre abituare lo studente ad effettuare analisi di dati con strumenti software avanzati (R, Spark).
Risultati apprendimento attesi
The main aim of the course is to introduce the modern concepts of multivariate and computational Mathematical Statistics, both from a theoretical and applied point of view, with particular reference to the techniques for Big Data analysis. During the lab activities, the students will be trained to perform a data analysis with advanced software instruments (R and R Spark).
Corso singolo

Questo insegnamento può essere seguito come corso singolo.

Programma e organizzazione didattica

Edizione unica

Responsabile
Periodo
Primo semestre

Programma
Viene qui fornita una indicazione dei capitoli che sarebbe necessario sviluppare. L'insufficienza del tempo a disposizione potrà costringere i docenti ad operare una scelta ragionata.

Parte A. Metodi statistici per il trattamento di piccoli campioni di dati di grandi dimensioni (riduzione di dimensioni)

1. Ridge regression
2. Metodi di shrinkage per la stima della matrice di covarianza
3. Metodi di penalizzazione e regressione LASSO
4. Analisi delle componenti principali (PCA)

Parte B. Metodi statistici per il trattamento di Big Data

5. Locality Sensitive Hashing (LSH)
6. Ricerca di oggetti simili
7. Oggetti frequenti
8. Cluster analysis
9. Tecniche di riduzione della dimensione
10. Analisi di data streams
11. Analisi di social networks

12. Laboratorio
Analisi di dati tramite software statistici (Python e Spark)
Prerequisiti
E' richiesto che gli studenti abbiano seguito un corso introduttivo alla Statistica Matematica univariata, con particolare riferimento alla Verifica di Ipotesi statistiche e alla Regressione Lineare.
Metodi didattici
Lezioni frontali e laboratorio informatico
Materiale di riferimento
Wessel N. van Wieringen, Lecture notes on ridge regression, https://arxiv.org/pdf/1509.09169.pdf

I.T.Jolliffe, Principal Component Analysis. 2nd Edition. Springer, 2002

Jure Leskovec, Anand Rajaraman, Jeff Ullman, Mining of massive datasets, Cambridge University Press, 2014. Versione online: http://www.mmds.org/

Note dei docenti
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consiste nella consegna di un insieme di homeworks che saranno assegnati dai docenti durante il corso, consistenti in analisi di dati di grosse dimensioni e sviluppo guidato di metodologie per l'analisi di big data. Per svolgere gli homeworks occorre frequentare il corso in tempo reale, pertanto la frequenza è vivamente consigliata.

Gli studenti non frequentanti, o gli studenti che rifiutano il voto risultante dagli homeworks, dovranno sostenere un esame orale sull'intero programma del corso.

Lo scopo degli esami è la verifica delle conoscenze apprese e della abilità degli studenti di risolvere problemi di analisi di dati di grosse dimensioni con opportuni strumenti matematico-statistici.
MAT/06 - PROBABILITA' E STATISTICA MATEMATICA - CFU: 9
Laboratori: 36 ore
Lezioni: 42 ore
Turni:
Docente/i
Ricevimento:
su appuntamento
ufficio 2099
Ricevimento:
Su appuntamento per email
studio o online (videoconferenza)