Data mining and computational statistics

A.A. 2025/2026
9
Crediti massimi
59.4
Ore totali
SSD
SECS-S/01
Lingua
Inglese
Obiettivi formativi
This is an introductory course to basic techniques and applications in finance and economics of Data Mining and Computational Statistics, also in the more general framework of data science. We will allow students to develop programming skills using the R software. By the end of the course, students will be equipped to apply these methods to solve practical problems in the analysis of economic and financial data.
Risultati apprendimento attesi
At the end of the course students will be able to perform machine learning techniques and algorithms and use them in economic and financial applications. Specifically, students will be familiar with supervised and unsupervised models. In particular, in the supervised framework students will be able to perform advanced regression models like the ridge and lasso regression, classification techniques like the Bayes classifier, the K-NN classifier and the logistic model, whereas in the unsupervised framework students will become familiar with dimensional reduction techniques and cluster analysis. More sophisticated techniques like decision tree-based classification will be presented to the students. In Computational statistics, resampling techniques, random number and random variable generation and numerical integration will be part of the acquired knowledge the students will have at the end of the course.
Corso singolo

Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.

Programma e organizzazione didattica

Edizione unica

Responsabile
Periodo
Terzo trimestre

Programma
-Introduzione al software R.
-Metodi supervisionati vs. non supervisionati: panoramica introduttiva.
-Metodi parametrici vs. non parametrici: analisi del trade-off tra bias e varianza nei metodi di apprendimento statistico.

Metodi supervisionati:

· Richiami sulla regressione lineare; regressione Ridge, Lasso e altri metodi di regularizzazione.
· Metodi di classificazione: regressione logistica, analisi discriminante (lineare e quadratica), classificatore di Bayes.
· Metodi di ricampionamento: tecniche di cross-validation e bootstrap.
· Alberi decisionali: modelli di regressione e classificazione, con approfondimento sulle tecniche di pruning.
· Metodi basati su alberi decisionali: bagging e random forest.

Metodi non supervisionati:

· Analisi delle componenti principali (PCA).
· Clustering
Prerequisiti
È necessaria una solida conoscenza degli argomenti affrontati nei corsi di base di matematica e statistica. Alcune competenze di programmazione sono apprezzate, ma non indispensabili.
Metodi didattici
Il corso si svolgerà attraverso lezioni frontali interattive, durante le quali saranno discussi problemi teorici e presentati casi pratici. Si cercherà di lavorare in modo interattivo con gli studenti, stimolandone gli interventi e organizzando momenti di discussione e confronto tra di loro. Oltre alle lezioni, sono previste 20 ore di esercitazioni laboratoriali, in cui si applicheranno i concetti affrontati a lezione utilizzando il software R.
Materiale di riferimento
Testo di riferimento
An Introduction to Statistical Learning, with applications in R (2013) by G. James, D. Witten, T. Hastie, R. Tibshirani, Springer.

Note a cura del docente rese disponibili su myAriel
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame può essere svolto secondo due modalità.

Opzione A: Lavoro di gruppo e prova scritta integrativa

Lavoro di gruppo e presentazione in aula:

Gli studenti si suddivideranno in gruppi gruppi (massimo 5 /6 persone per gruppo) con lo scopo di raccogliere e analizzare dati riguardanti tematiche attuali. Dovranno preparare una presentazione da esporre in aula davanti ai loro compagni di corso.

Si richiede la creazione di un report dettagliato sul lavoro svolto, con chiara indicazione del contributo individuale di ciascun membro.
Saranno programmati momenti in aula per verificare lo stato di avanzamento del lavoro di gruppo.

Prova scritta (30 minuti): La prova conterrà una domanda generale relativa agli argomenti del corso.
È consentito portare un formulario di una facciata di un foglio A4 e una calcolatrice non programmabile.

Il punteggio finale sarà la somma dei seguenti tre elementi:
Valutazione del lavoro di gruppo (10 punti)
Valutazione del report (10 punti)
Risultato della prova scritta (10 punti)
La lode sarà assegnata agli studenti che non solo ottengono il massimo punteggio, ma dimostrano anche un coinvolgimento significativo e attivo nelle attività proposte.

Opzione B: Report singolo e prova scritta integrativa

Report singolo:

Gli studenti dovranno presentare un report riguardante l'analisi dettagliata di un caso studio di lor scelta. Posso utilizzare dati raccolti presenti sul libro di testo, in articoli pubblicati online o provenienti da banche dati. Si richiede la preparazione di un report che descriva i risultati ottenuti.
Dovranno preparare una presentazione da esporre se possibile in aula davanti ai loro compagni di corso.

Prova scritta (30 minuti): La prova conterrà una domanda generale relativa agli argomenti del corso.
È consentito portare un formulario di una facciata di un foglio A4 e una calcolatrice non programmabile.

Il punteggio finale sarà la somma dei seguenti tre elementi:
Valutazione della presentazione in aula (10 punti)
Valutazione del report (10 punti)
Risultato della prova scritta (10 punti)
La lode sarà assegnata agli studenti che non solo ottengono il massimo punteggio, ma dimostrano anche un coinvolgimento significativo e attivo nelle attività proposte.
SECS-S/01 - STATISTICA - CFU: 9
Lezioni: 59.4 ore
Docente/i
Ricevimento:
mercoledì 9.30-12.30 (su appuntamento)
in presenza ufficio n16 Via Conservatorio 7 (per appuntamento) o via teams (per appuntamento)