Data mining and computational statistics
A.A. 2019/2020
Obiettivi formativi
This is an introductory course to basic techniques and applications in finance and economics of Data Mining and Computational Statistics, also in the more general framework of data science. We will allow students to develop programming skills using the R software in the Data Mining part, and the OpenBUGS software for Bayesian Markov Chain Monte Carlo random variable generation. Students will acquire independence in studying Data Mining & Computational Statistics subjects and will be able to solve practical problems in economic and financial data analysis.
Risultati apprendimento attesi
At the end of the course students will be able to perform machine learning techniques and algorithms and use them in economic and financial applications. Specifically, students will be familiar with supervised and unsupervised models. In particular, in the supervised framework students will be able to perform advanced regression models like the ridge and lasso regression, classification techniques like the Bayes classifier, the K-NN classifier and the logistic model, whereas in the unsupervised framework students will become familiar with dimensional reduction techniques and cluster analysis. More sophisticated techniques like decision tree-based classification will be presented to the students. In Computational statistics, resampling techniques, random number and random variable generation and numerical integration will be part of the acquired knowledge the students will have at the end of the course.
Periodo: Terzo trimestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.
Programma e organizzazione didattica
Edizione unica
Periodo
Terzo trimestre
Programma
Parte I.
(i) Revisione del concetto di verosimiglianza; (ii) Introduzione al data mining e all'apprendimento statistico. (iii) Analisi esplorativa e visualizzazione di dati. (iv) Metodi supervisionati vs. non supervisionati: introduzione. (v) Metodi parametrici vs. non parametrici: introduzione. (vi) Regressione lineare multipla. (vii) Metodi di classificazione: regressione logistica, analisi discriminante lineare e metodo dei vicini K-più vicini. Il classificatore di Bayes. (viii) Metodi di ricampionamento: cross validation e bootstrap. (ix) Metodi di contrazione: regressione ridge, lasso e altri metodi di regularization. (x) Spline di regressione e regressione locale. (xi) Metodi basati su alberi decisionali: random forest, bagging and boosting. (xii) Support vector machine. (xiii) Apprendimento non supervisionato: Analisi in componenti principali, clustering e altri metodi di riduzione dimensionale; analisi della corrispondenze. Regressione con le componenti principali. (xiv) Introduzione ai metodi bayesiani nel data mining. (xv) Introduzione al text mining. (xvi) Data mining in finanza.
Seconda parte
(i) Metodi statistici computer-intensive: panoramica. (ii) Numeri pseudo-casuali e generazione di variabili. (iii) Metodi Monte Carlo per l'integrazione numerica. (iv) Inferenza basata sulla simulazione. (v) Metodi MCMC: panoramica. (vi) Metodi MCMC: campionamento di Metropolis-Hastings e Gibbs sampling.
(i) Revisione del concetto di verosimiglianza; (ii) Introduzione al data mining e all'apprendimento statistico. (iii) Analisi esplorativa e visualizzazione di dati. (iv) Metodi supervisionati vs. non supervisionati: introduzione. (v) Metodi parametrici vs. non parametrici: introduzione. (vi) Regressione lineare multipla. (vii) Metodi di classificazione: regressione logistica, analisi discriminante lineare e metodo dei vicini K-più vicini. Il classificatore di Bayes. (viii) Metodi di ricampionamento: cross validation e bootstrap. (ix) Metodi di contrazione: regressione ridge, lasso e altri metodi di regularization. (x) Spline di regressione e regressione locale. (xi) Metodi basati su alberi decisionali: random forest, bagging and boosting. (xii) Support vector machine. (xiii) Apprendimento non supervisionato: Analisi in componenti principali, clustering e altri metodi di riduzione dimensionale; analisi della corrispondenze. Regressione con le componenti principali. (xiv) Introduzione ai metodi bayesiani nel data mining. (xv) Introduzione al text mining. (xvi) Data mining in finanza.
Seconda parte
(i) Metodi statistici computer-intensive: panoramica. (ii) Numeri pseudo-casuali e generazione di variabili. (iii) Metodi Monte Carlo per l'integrazione numerica. (iv) Inferenza basata sulla simulazione. (v) Metodi MCMC: panoramica. (vi) Metodi MCMC: campionamento di Metropolis-Hastings e Gibbs sampling.
Prerequisiti
È richiesta una buona conoscenza degli argomenti statistici di base insieme ad alcune nozioni di matematica, in particolare l'algebra lineare. Alcune conoscenze sulla programmazione informatica sono benvenute ma non essenziali.
Metodi didattici
La lezione frontale sarà in parte impartita tramite slide pre allestite e in parte alla lavagna, specialmente per quegli argomenti che richiedono una maggiore riflessione da parte degli studenti. Si cercherà di lavorare in modo interattivo con gli studenti stimolandone gli interventi sia orali che scritti alla lavagna.
Materiale di riferimento
Main textbooks:
(i) An Introduction to Statistical Learning, with applications in R (2013) by G. James, D. Witten, T. Hastie, R. Tibshirani, Springer.
(ii) Introducing Monte Carlo Statistical Methods with R (2010) by C.P. Robert, G. Casella, Springer.
Letture suggerite:
(i) The Elements of Statistical Learning, 2nd edition (2009), T. Hastie, R. Tibshirani, J. Friedman, Springer.
(ii) Machine Learning: a Probabilistic Perspective (2012), K.P. Murphy, The MIT Press.
(iii) Monte Carlo Statistical Methods (2004) by C.P. Robert, G. Casella, Springer.
Ulteriori letture saranno suggerite durante l'espletamento del corso.
(i) An Introduction to Statistical Learning, with applications in R (2013) by G. James, D. Witten, T. Hastie, R. Tibshirani, Springer.
(ii) Introducing Monte Carlo Statistical Methods with R (2010) by C.P. Robert, G. Casella, Springer.
Letture suggerite:
(i) The Elements of Statistical Learning, 2nd edition (2009), T. Hastie, R. Tibshirani, J. Friedman, Springer.
(ii) Machine Learning: a Probabilistic Perspective (2012), K.P. Murphy, The MIT Press.
(iii) Monte Carlo Statistical Methods (2004) by C.P. Robert, G. Casella, Springer.
Ulteriori letture saranno suggerite durante l'espletamento del corso.
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consiste per un terzo in un test a domande con risposta multipla e per due terzi nella preparazione di un poster su argomenti del corso in cui lo studente dovrà dimostrare di conoscere il pacchetto R e le tecniche essenziali dell'apprendimento statistico e della statistica computazionale. Lungo lo svolgimento del corso sarà possibile assegnare alcuni homework da risolvere nell'arco di una o due giornate. Questi homework, seppure in maniera limitata, contribuiranno ad accrescere il punteggio finale.
SECS-S/01 - STATISTICA - CFU: 9
Lezioni: 60 ore
Docente:
Manzi Giancarlo
Turni:
-
Docente:
Manzi Giancarlo