Data mining and computational statistics

A.A. 2023/2024
9
Crediti massimi
60
Ore totali
SSD
SECS-S/01
Lingua
Inglese
Obiettivi formativi
This is an introductory course to basic techniques and applications in finance and economics of Data Mining and Computational Statistics, also in the more general framework of data science. We will allow students to develop programming skills using the R software in the Data Mining part, and the OpenBUGS software for Bayesian Markov Chain Monte Carlo random variable generation. Students will acquire independence in studying Data Mining & Computational Statistics subjects and will be able to solve practical problems in economic and financial data analysis.
Risultati apprendimento attesi
At the end of the course students will be able to perform machine learning techniques and algorithms and use them in economic and financial applications. Specifically, students will be familiar with supervised and unsupervised models. In particular, in the supervised framework students will be able to perform advanced regression models like the ridge and lasso regression, classification techniques like the Bayes classifier, the K-NN classifier and the logistic model, whereas in the unsupervised framework students will become familiar with dimensional reduction techniques and cluster analysis. More sophisticated techniques like decision tree-based classification will be presented to the students. In Computational statistics, resampling techniques, random number and random variable generation and numerical integration will be part of the acquired knowledge the students will have at the end of the course.
Corso singolo

Questo insegnamento può essere seguito come corso singolo.

Programma e organizzazione didattica

Edizione unica

Responsabile
Periodo
Terzo trimestre

Programma
(0) Introduzione al software R.
(i) Metodi supervisionati vs. non supervisionati: introduzione.
(ii) Metodi parametrici vs. non parametrici; trade-off tra BIAS e Variance di un metodo di apprendimento statistico.

Metodi supervisionati:
(iii) Richiami sulla regressione lineare multipla. Metodi di contrazione: regressione ridge, lasso e altri metodi di regularization.
(iv) Revisione dei metodi di verosimiglianza.
(v) Metodi di classificazione: regressione logistica.
(vi) Il classificatore di Bayes e il metodo dei vicini K-più vicini.
(vii) L'analisi discriminante lineare e quadratica.
(ix) Metodi di ricampionamento: cross validation e bootstrap.
(x) Gli alberi decisionali: di regressione e classificazione. Il pruning.
(xi) Metodi basati su alberi decisionali: bagging e random forest.

Metodi non supervisionati:
(xii) Analisi in componenti principali.
(xiii) Clustering.
Prerequisiti
È richiesta una buona conoscenza degli argomenti statistici di base insieme ad alcune nozioni di matematica, in particolare di algebra lineare. Alcune conoscenze sulla programmazione informatica sono benvenute ma non essenziali.
Metodi didattici
La lezione frontale sarà in gran parte svolta alla lavagna, perché gli argomenti trattati richiedono attenzione e riflessione da parte degli studenti. Si cercherà di lavorare in modo interattivo con gli studenti stimolandone gli interventi sia orali che scritti alla lavagna.
Oltre alle lezioni ci saranno 20 ore di esercitazioni laboratoriali, dove vengono svolte applicazioni dei concetti presentati a lezione attraverso l'uso del software R.
Materiale di riferimento
Testi principali:
(i) An Introduction to Statistical Learning, with applications in R (2013) by G. James, D. Witten, T. Hastie, R. Tibshirani, Springer.
(iii) Introducing Monte Carlo Statistical Methods with R (2010) by C.P. Robert, G. Casella, Springer.
Suggested reading for insights into some topics in main textbooks:
(i) The Elements of Statistical Learning, 2nd edition (2009), T. Hastie, R. Tibshirani, J. Friedman, Springer.
(ii) Machine Learning: a Probabilistic Perspective (2012), K.P. Murphy, The MIT Press.
(iii) Monte Carlo Statistical Methods (2004) by C.P. Robert, G. Casella, Springer.
Ulteriori letture saranno suggerite durante l'espletamento del corso.
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consiste in un test scritto della durata di 30 minuti, con 10 domande a scelta multipla, e nella preparazione di una relazione (5-6 pagine) su un argomento specifico assegnato durante il corso, da consegnare via e-mail alla docente. Per i frequentanti si tratterà di un lavoro di gruppo (max 5 persone) da svolgere durante il corso; per i non frequentanti si tratterà di una relazione individuale da inviare il giorno dell'esame (il testo verrà messo a disposizione su ARIEL una settimana prima). A discrezione del docente gli studenti potranno essere interrogati sulla relazione consegnata.
SECS-S/01 - STATISTICA - CFU: 9
Lezioni: 60 ore
Docente: Tommasi Chiara
Docente/i
Ricevimento:
Mercoledì dalle 9:00 alle 12:00 (controllare la bacheca su ARIEL per eventuali cambiamenti).
Ufficio n.35, III piano di via Conservatorio