Statistica matematica avanzata
A.A. 2020/2021
Obiettivi formativi
L'obiettivo principale dell'insegnamento è di introdurre gli aspetti sia teorici che applicativi dei moderni metodi della Statistica Matematica, sia multivariata che computazionale, con particolare attenzione alle tecniche per l'analisi di Big Data. Attraverso le attività di laboratorio, si vuole inoltre abituare lo studente ad effettuare analisi di dati con strumenti software avanzati (R, Spark).
Risultati apprendimento attesi
The main aim of the course is to introduce the modern concepts of multivariate and computational Mathematical Statistics, both from a theoretical and applied point of view, with particular reference to the techniques for Big Data analysis. During the lab activities, the students will be trained to perform a data analysis with advanced software instruments (R and R Spark).
Periodo: Primo semestre
Corso singolo
Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.
Programma e organizzazione didattica
Edizione unica
Responsabile
Periodo
Primo semestre
Metodi didattici
Le lezioni e i laboratori informatici si terranno sulla piattaforma Microsoft Teams e potranno essere seguite sia in sincrono sulla base dell'orario del primo semestre, sia in asincrono perché saranno registrate e lasciate a disposizione degli studenti sulla medesima piattaforma.
Altri materiali di riferimento e gli avvisi del corso saranno anche disponibili sul sito del corso su Ariel. Gli studenti dovranno installare sui propri pc personali R, RStudio e Spark, seguendo le indicazioni dei docenti.
Alcune lezioni di ripasso saranno registrate ed offerte in modalità asincrona.
Programma, materiale di riferimento e modalità di esame
Il programma, il materiale di riferimento e le modalità di esame non subiranno variazioni.
Le lezioni e i laboratori informatici si terranno sulla piattaforma Microsoft Teams e potranno essere seguite sia in sincrono sulla base dell'orario del primo semestre, sia in asincrono perché saranno registrate e lasciate a disposizione degli studenti sulla medesima piattaforma.
Altri materiali di riferimento e gli avvisi del corso saranno anche disponibili sul sito del corso su Ariel. Gli studenti dovranno installare sui propri pc personali R, RStudio e Spark, seguendo le indicazioni dei docenti.
Alcune lezioni di ripasso saranno registrate ed offerte in modalità asincrona.
Programma, materiale di riferimento e modalità di esame
Il programma, il materiale di riferimento e le modalità di esame non subiranno variazioni.
Programma
Viene qui fornita una indicazione dei capitoli che sarebbe necessario sviluppare. L'insufficienza del tempo a disposizione potrà costringere i docenti ad operare una scelta ragionata.
Statistica Multivariata
1. Vettori aleatori
2. La distribuzione Normale Multivariata
2.1. Definizione e proprietà della Normale multivariata
2.2. Test per la verifica della normalità di un vettore aleatorio
2.3. Ricerca di outliers
3. Principali distribuzioni multivariate derivanti dalla Normale
3.1. Distribuzione di Wishart
3.2. Distribuzione T2 di Hotelling
3.3. Distribuzione Lambda di Wilks
4. Test di ipotesi multivariati
4.1. Test su uno o due vettori medi
4.2. Analisi multivariata della varianza (MANOVA)
4.3. Test sulle matrici di covarianza
Metodi statistici per il trattamento di Big Data
5. Locality Sensitive Hashing (LSH)
6. Ricerca di oggetti simili
7. Oggetti frequenti
8. Cluster analysis
9. Tecniche di riduzione della dimensione
10. Analisi di data streams
11. Analisi di social networks
12. Laboratorio
Analisi di dati tramite software statistici (R e R Spark)
Statistica Multivariata
1. Vettori aleatori
2. La distribuzione Normale Multivariata
2.1. Definizione e proprietà della Normale multivariata
2.2. Test per la verifica della normalità di un vettore aleatorio
2.3. Ricerca di outliers
3. Principali distribuzioni multivariate derivanti dalla Normale
3.1. Distribuzione di Wishart
3.2. Distribuzione T2 di Hotelling
3.3. Distribuzione Lambda di Wilks
4. Test di ipotesi multivariati
4.1. Test su uno o due vettori medi
4.2. Analisi multivariata della varianza (MANOVA)
4.3. Test sulle matrici di covarianza
Metodi statistici per il trattamento di Big Data
5. Locality Sensitive Hashing (LSH)
6. Ricerca di oggetti simili
7. Oggetti frequenti
8. Cluster analysis
9. Tecniche di riduzione della dimensione
10. Analisi di data streams
11. Analisi di social networks
12. Laboratorio
Analisi di dati tramite software statistici (R e R Spark)
Prerequisiti
E' richiesto che gli studenti abbiano seguito un corso introduttivo alla Statistica Matematica univariata, con particolare riferimento alla Verifica di Ipotesi statistiche e alla Regressione Lineare.
Metodi didattici
Lezioni frontali e laboratorio informatico
Materiale di riferimento
A.C. Rencher, Multivariate Statistical Inference and Applications, Wiley, 1998
K.V. Mardia, J.T. Kent, J.M., Bibby, Multivariate Analysis, Academic Press, 1979
Jure Leskovec, Anand Rajaraman, Jeff Ullman, Mining of massive datasets, Cambridge University Press, 2014. Versione online: http://www.mmds.org/
Note dei docenti
K.V. Mardia, J.T. Kent, J.M., Bibby, Multivariate Analysis, Academic Press, 1979
Jure Leskovec, Anand Rajaraman, Jeff Ullman, Mining of massive datasets, Cambridge University Press, 2014. Versione online: http://www.mmds.org/
Note dei docenti
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consiste nella consegna di un insieme di homeworks che saranno assegnati dai docenti durante il corso, consistenti in analisi di dati multivariati e sviluppo guidato di metodologie per l'analisi di big data. Per svolgere gli homeworks occorre frequentare il corso in tempo reale, pertanto la frequenza è vivamente consigliata.
Gli studenti non frequentanti, o gli studenti che rifiutano il voto risultante dagli homeworks, dovranno sostenere un esame orale sull'intero programma del corso.
Lo scopo degli esami è la verifica delle conoscenze apprese e della abilità degli studenti di risolvere problemi di analisi di dati multivariati o di grosse dimensioni con opportuni strumenti matematico-statistici.
Gli studenti non frequentanti, o gli studenti che rifiutano il voto risultante dagli homeworks, dovranno sostenere un esame orale sull'intero programma del corso.
Lo scopo degli esami è la verifica delle conoscenze apprese e della abilità degli studenti di risolvere problemi di analisi di dati multivariati o di grosse dimensioni con opportuni strumenti matematico-statistici.
MAT/06 - PROBABILITA' E STATISTICA MATEMATICA - CFU: 9
Laboratori: 36 ore
Lezioni: 42 ore
Lezioni: 42 ore
Docenti:
Aletti Giacomo, Micheletti Alessandra
Docente/i
Ricevimento:
su appuntamento
ufficio 2099
Ricevimento:
Su appuntamento per email
studio o online (videoconferenza)