Statistica e analisi dei dati

A.A. 2021/2022
6
Crediti massimi
60
Ore totali
SSD
INF/01
Lingua
Italiano
Obiettivi formativi
L'insegnamento ha lo scopo di introdurre i concetti fondamentali della statistica descrittiva, del calcolo delle probabilità e della statistica inferenziale parametrica.
Risultati apprendimento attesi
Gli studenti saranno in grado di effettuare analisi esplorative e inferenze di base su dataset, conosceranno le principali distribuzioni di probabilità e sapranno comprendere le analisi statistiche condotte da altri; avranno inoltre acquisito semplici metodi per la classificazione binaria e sapranno valutarne le performance. Avranno inoltre acquisito le conoscenze di base per poter affrontare lo studio di tecniche più avanzate di analisi e modellazione dei dati.
Programma e organizzazione didattica

Edizione unica

Responsabile
Periodo
Secondo semestre
In relazione alle modalità di erogazione delle attività formative per l'a.a. 2021/22, verranno date indicazioni più specifiche nei prossimi mesi, in base all'evoluzione della situazione sanitaria.
Programma
Introduzione al linguaggio python.
Statistica descrittiva:
- Frequenze e frequenze cumulate. Frequenze congiunte e marginali.
- Indici di centralità, dispersione, correlazione, eterogeneità e concentrazione.
- Metodi grafici: diagrammi per frequenze e frequenze cumulate, diagrammi di dispersione e diagrammi QQ.
- Classificatori e curve ROC.
Calcolo delle probabilità:
- Calcolo combinatorio. Richiami di teoria degli insiemi.
- Assiomi di probabilità.
- Probabilità condizionata e teoremi collegati.
- Variabili aleatorie discrete e continue. Indici di centralità e dispersione per variabili aleatorie e loro proprietà.
- Variabili aleatorie multivariate. Indici di covarianza e correlazione per variabili aleatorie.
- Indipendenza di eventi e di variabili aleatorie.
- Disuguaglianze di Markov e di Tchebyshev.
- Modelli di Bernoulli, binomiale, geometrico, di Poisson, uniforme discreto e ipergeometrico.
- Modelli uniforme continuo, esponenziale e gaussiano.
- Processo di Poisson.
Statistica inferenziale parametrica:
- Popolazione, campione casuale e stima puntuale.
- Media campionaria. Teorema centrale del limite.
- Varianza campionaria.
- Stimatori non deviati e stimatori consistenti in media quadratica.
- Legge dei grandi numeri.
- Calcolo della taglia del campione.
Prerequisiti
Oltre alla propedeuticità obbligatoria dell'insegnamento di Matematica del continuo è richiesta la conoscenza degli argomenti principali di programmazione degli elaboratori, e fortemente consigliato il superamento dell'esame di matematica del discreto.
Metodi didattici
Lezioni frontali ed esercitazioni. La frequenza è fortemente consigliata.
Materiale di riferimento
Libri di testo consigliati:
- S. Ross, Introduzione alla statistica, Apogeo education, 2014, ISBN 9788838786020
- S. Ross, Probabilità e statistca per l'ingegneria e le scienze, terza edizione, Apogeo education, 2015, ISBN 8891609946

Dispense sugli argomenti del programma non trattati dai libri suggeriti e codice disponibli sui siti dell'insegnamento:
https://labonline.ctu.unimi.it/course/view.php?id=228
- http://malchiodi.di.unimi.it/teaching/data-analytics/
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consiste di una prova scritta e di una prova orale, entrambe relative agli argomenti trattati nell'insegnamento.

La prova scritta, della durata di due ore e mezzo, si svolge in laboratorio informatizzato. Viene richiesto di risolvere alcuni esercizi basati su domande a risposta aperta e di analizzare un dataset applicando in modo adeguato le tecniche statistiche viste a lezione. La valutazione, espressa in termini di approvato/respinto, è comunicata via mail e tiene conto del livello di padronanza degli argomenti e del corretto uso dei formalismi matematici.

La prova orale, a cui si accede previa superamento di quella scritta, è basata sulla discussione dello svolgimento della prova scritta e su alcune domande relative ad argomenti trattati nell'insegnamento. La sua valutazione, espressa in trentesimi, tiene conto del livello di padronanza degli argomenti, della chiarezza espositiva, della proprietà di linguaggio e del corretto uso del gergo tecnico.
INF/01 - INFORMATICA - CFU: 6
Esercitazioni: 36 ore
Lezioni: 24 ore
Docente: Malchiodi Dario
Docente/i
Ricevimento:
Su appuntamento (via e-mail)