Data mining and computational statistics | Università degli Studi di Milano Statale

A.A. 2021/2022

Crediti massimi

Ore totali

SSD

SECS-S/01

Lingua

Inglese

Corsi di laurea che utilizzano l'insegnamento

Finance and economics (MEF) - classe lm-16-enrolled from 2017/2018 academic year till 2020/21

Finance and economics (MEF) - classe lm-16-enrolled from 2021/2022 academic year

Obiettivi formativi

This is an introductory course to basic techniques and applications in finance and economics of Data Mining and Computational Statistics, also in the more general framework of data science. We will allow students to develop programming skills using the R software in the Data Mining part, and the OpenBUGS software for Bayesian Markov Chain Monte Carlo random variable generation. Students will acquire independence in studying Data Mining & Computational Statistics subjects and will be able to solve practical problems in economic and financial data analysis.

Risultati apprendimento attesi

At the end of the course students will be able to perform machine learning techniques and algorithms and use them in economic and financial applications. Specifically, students will be familiar with supervised and unsupervised models. In particular, in the supervised framework students will be able to perform advanced regression models like the ridge and lasso regression, classification techniques like the Bayes classifier, the K-NN classifier and the logistic model, whereas in the unsupervised framework students will become familiar with dimensional reduction techniques and cluster analysis. More sophisticated techniques like decision tree-based classification will be presented to the students. In Computational statistics, resampling techniques, random number and random variable generation and numerical integration will be part of the acquired knowledge the students will have at the end of the course.

Periodo: Terzo trimestre

Orari delle lezioni

Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi

Calendario degli appelli

Corso singolo

Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.

Cerca un corso singolo

Programma e organizzazione didattica

Edizione unica

Responsabile

Bodini Matteo

Periodo

Terzo trimestre

Didattica fase emergenziale

Il corso e le esercitazioni, se necessario per l'emergenza sanitaria, si svolgeranno da remoto in modalità sincrona attraverso la piattaforma Microsoft Teams. Le registrazioni ed eventuali ulteriori materiali di riferimento saranno disponibili su ARIEL.

L'esame sarà costituito dalla produzione di un poster e da un esame orale.

Programma

Programma

(i) Revisione di alcune tecniche statistiche (verosimiglianza, intervalli di confidenza, test)
(ii) Introduzione al data mining e all'apprendimento statistico.
(iii) Metodi supervisionati e non supervisionati.
(iv) Regressione lineare classica.
(v) Metodi di classificazione: Regressione logistica, analisi discriminante, metodo KNN.
(vi) Regressione con regolarizzazione: Regressione ridge e lasso.
(vii) Metodi non supervisionati: riduzione dimensionale, clustering.
(viii) Alberi decisionali e ensemble methods.
(ix) Metodi ricampionamento: il bootstrap.
(x) Metodi di simulazione: generazione di variabili casuali, integrazione Montecarlo.
(xi) Altri tipi di regressione: regressione alle componenti principali, splines, regressione locale.
(xii) Multidimensional scaling.
(xiii) Support vector machines.
(xiii) Text mining.

Prerequisiti

È richiesta una buona conoscenza degli argomenti statistici di base insieme ad alcune nozioni di matematica, in particolare l'algebra lineare. Alcune conoscenze sulla programmazione informatica sono benvenute ma non essenziali.

Metodi didattici

La lezione frontale sarà in gran parte svolta alla lavagna, perché gli argomenti trattati richiedono attenzione e riflessione da parte degli studenti. Si cercherà di lavorare in modo interattivo con gli studenti stimolandone gli interventi sia orali che scritti alla lavagna.
Oltre alle lezioni ci saranno 20 ore di esercitazioni, dove vengono svolte applicazioni dei concetti presentati a lezione attraverso l'uso del software R.

Materiale di riferimento

Testi principali:
(i) An Introduction to Statistical Learning, with applications in R (2013) di G. James, D. Witten, T. Hastie, R. Tibshirani, Springer.
(ii) Introducing Monte Carlo Statistical Methods with R (2010) di C.P. Robert, G. Casella, Springer.
Letture suggerite:
(i) The Elements of Statistical Learning, 2nd edition (2009), T. Hastie, R. Tibshirani, J. Friedman, Springer.
(ii) Machine Learning: a Probabilistic Perspective (2012), K.P. Murphy, The MIT Press.
(iii) Monte Carlo Statistical Methods (2004) by C.P. Robert, G. Casella, Springer.
Ulteriori letture saranno suggerite durante l'espletamento del corso.

Modalità di verifica dell’apprendimento e criteri di valutazione

L'esame consiste nella preparazione di un poster anche di gruppo (max 4 studenti per gruppo) su uno o più argomenti del corso che verrà presentato dagli studenti il giorno della prova d'esame. Il poster deve prevedere un'elaborazione di dati (anche non finanziari) fatta in R o in Python (a anche con tutti e due). Il titolo, la composizione del gruppo e l'abstract del poster devono essere approvati dal docente. Questa parte vale due terzi dell'intero esame. La restante parte consiste in un test scritto della durata di 30 minuti, con 10 domande a scelta multipla.

Organizzazione didattica

SECS-S/01 - STATISTICA - CFU: 9

Esercitazioni: 20 ore
Lezioni: 40 ore

Docenti: Bodini Matteo, Manzi Giancarlo

Docente/i

Bodini Matteo

Sito web

Ricevimento:

Da concordare su appuntamento

Stanza 37 (3° piano) oppure Microsoft Teams