Data mining and computational statistics

A.A. 2026/2027
9
Crediti massimi
60
Ore totali
SSD
STAT-01/A
Lingua
Inglese
Obiettivi formativi
This is an introductory course to basic techniques and applications in finance and economics of Data Mining and Computational Statistics, also in the more general framework of data science. We will allow students to develop programming skills using the R software. By the end of the course, students will be equipped to apply these methods to solve practical problems in the analysis of economic and financial data.
Risultati apprendimento attesi
At the end of the course students will be able to perform machine learning techniques and algorithms and use them in economic and financial applications. Specifically, students will be familiar with supervised and unsupervised models. In particular, in the supervised framework students will be able to perform advanced regression models like the ridge and lasso regression, classification techniques like the Bayes classifier, the K-NN classifier and the logistic model, whereas in the unsupervised framework students will become familiar with dimensional reduction techniques and cluster analysis. More sophisticated techniques like decision tree-based classification will be presented to the students. In Computational statistics, resampling techniques, random number and random variable generation and numerical integration will be part of the acquired knowledge the students will have at the end of the course.
Corso singolo

Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.

Programma e organizzazione didattica

Edizione unica

Responsabile
Periodo
Terzo trimestre

Programma
-Introduzione al software R.
-Metodi supervisionati vs. non supervisionati: panoramica introduttiva.
-Metodi parametrici vs. non parametrici: analisi del trade-off tra bias e varianza nei metodi di apprendimento statistico.

Metodi supervisionati:

· Richiami sulla regressione lineare; regressione Ridge, Lasso e altri metodi di regularizzazione.
· Metodi di classificazione: regressione logistica, analisi discriminante (lineare e quadratica), classificatore di Bayes.
· Metodi di ricampionamento: tecniche di cross-validation e bootstrap.
· Alberi decisionali: modelli di regressione e classificazione, con approfondimento sulle tecniche di pruning.
· Metodi basati su alberi decisionali: bagging e random forest.

Metodi non supervisionati:

· Analisi delle componenti principali (PCA).
· Clustering
Prerequisiti
È necessaria una solida conoscenza degli argomenti affrontati nei corsi di base di matematica e statistica. Alcune competenze di programmazione sono apprezzate, ma non indispensabili.
Metodi didattici
Il corso si svolgerà in presenza. La partecipazione alle lezioni è facoltativa, anche se fortemente consigliata al fine di facilitare l'apprendimento.

Il corso si svolgerà attraverso lezioni frontali interattive, durante le quali saranno discussi problemi teorici e presentati casi pratici. Si cercherà di lavorare in modo interattivo con gli studenti, stimolandone gli interventi e organizzando momenti di discussione e confronto tra di loro. Oltre alle lezioni, sono previste 20 ore di esercitazioni laboratoriali, in cui si applicheranno i concetti affrontati a lezione utilizzando il software R.
Materiale di riferimento
Testo di riferimento
An Introduction to Statistical Learning, with applications in R (2013) by G. James, D. Witten, T. Hastie, R. Tibshirani, Springer.

Note a cura del docente rese disponibili su myAriel
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame può essere svolto secondo due modalità.

Opzione A: Lavoro di gruppo e prova scritta integrativa



Gli studenti si suddivideranno in gruppi gruppi (massimo 5 /6 persone per gruppo) con lo scopo di raccogliere e analizzare dati riguardanti tematiche attuali. Dovranno preparare una presentazione da esporre in aula davanti ai loro compagni di corso.

Si richiede la creazione di un report dettagliato sul lavoro svolto, con chiara indicazione del contributo individuale di ciascun membro.
Saranno programmati momenti in aula per verificare lo stato di avanzamento del lavoro di gruppo.

Esame scritto

La prova sarà composta da due parti:

Parte 1 - Domanda aperta

La prova includerà una domanda generale relativa agli argomenti trattati nel corso.

Gli studenti dovranno scrivere la risposta su un unico foglio A4 (fronte-retro).

Punteggio massimo 5 punti

Parte 2 - Domande a risposta multipla

La prova comprenderà 5 di domande a scelta multipla sui concetti chiave del corso.

Punteggio per le domande a scelta multipla:

* +1 punto per ogni risposta corretta
* −0,25 punti per ogni risposta errata
* 0 punti per le domande lasciate senza risposta

Gli studenti potranno utilizzare una calcolatrice non programmabile.

Durata della prova:
60 minuti.


Il punteggio finale sarà la somma dei seguenti tre elementi:

Valutazione della presentazione (10 punti)
Valutazione del report (10 punti)
Risultato della prova scritta (10 punti)

La lode sarà assegnata agli studenti che non solo ottengono il massimo punteggio, ma dimostrano anche un coinvolgimento significativo e attivo nelle attività proposte.


Opzione B: Report singolo e prova scritta integrativa

Opzione A: Lavoro singolo e prova scritta integrativa

Gli studenti dovranno presentare un report riguardante l'analisi dettagliata di un caso studio di lor scelta. Posso utilizzare dati raccolti presenti sul libro di testo, in articoli pubblicati online o provenienti da banche dati. Si richiede la preparazione di un report che descriva i risultati ottenuti.
Dovranno preparare una presentazione da esporre se possibile in aula davanti ai loro compagni di corso oppure al docente .

Esame scritto

La prova sarà composta da due parti:

Parte 1 - Domanda aperta

La prova includerà una domanda generale relativa agli argomenti trattati nel corso.

Gli studenti dovranno scrivere la risposta su un unico foglio A4 (fronte-retro).

Punteggio massimo 5 punti.

Parte 2 - Domande a risposta multipla

La prova comprenderà 5 domande a scelta multipla sui concetti chiave del corso.
Punteggio per le domande a scelta multipla:

+1 punto per ogni risposta corretta
−0,25 punti per ogni risposta errata
0 punti per le domande lasciate senza risposta

Gli studenti potranno utilizzare una calcolatrice non programmabile.

Durata della prova: 60 minuti.

Il punteggio finale sarà la somma dei seguenti tre elementi:
Valutazione della presentazione (10 punti)
Valutazione del report (10 punti)
Risultato della prova scritta (10 punti)

La lode sarà attribuita solo nel caso in cui venga raggiunto il punteggio massimo e il lavoro sviluppato e/o la presentazione mostrino elementi di originalità e dimostrino un elevato livello di impegno.

Gli studenti non frequentanti possono scegliere una delle due opzioni previste. Nel caso in cui scelgano l'Opzione A, dovranno partecipare alla discussione finale in aula del progetto di gruppo.
STAT-01/A - Statistica - CFU: 9
Lezioni: 60 ore
Docente/i
Ricevimento:
mercoledì 9.30-12.30 (su appuntamento) o via teams (per appuntamento)
in presenza ufficio n34 Via Conservatorio 7 (per appuntamento)