Biostatistics

A.A. 2025/2026
6
Crediti massimi
48
Ore totali
SSD
BIO/11 BIO/18
Lingua
Inglese
Obiettivi formativi
Assays in experimental biology generate large amounts of data that must be critially assessed and
processed appropriately to extract meaningful biological knowledge and generate testable
hypotheses. Proficiency in data wrangling and data visualisation, the ability to unravel complex
relationships in biological data and the ability to create transparent and reproducible workflows
constitute crucial skills for the modern biologist. In addition, a good understanding of principles of
experimental design are central to the critical assessment of experimental data. With data as the focus
and R/RStudio as the tool, students are exposed and trained in a unified view of experimental design
and data analysis. Students will develop expertise in data organisation, visualisation, analysis and
interpretation using both conventional biological data and complex large scale (BIG) biological data.
The aims of this course are to enable students to (i) analyse data from a well-designed biological
experiment, (ii) create a transparent reproducible analysis workflow using Rmarkdown in R/Rstudio
that includes exploratory analyses, statistical modelling, model assessment and parameter estimation,
(iv) understand the power and pitfalls of statistical analyses, (v) implement methods for the analysis
of gene expression (RNA-Seq) data and the interpretation of the final results.
Throughout the course, we will use R programming language and the R/Studio software environment.
Risultati apprendimento attesi
1. Use the R/RStudio environment to import, visualise, wrangle and summarise data.
2. Create transparent reproducible analysis workflows using Rmarkdown.
3. Understand the statistical model framework for statistical inference and estimation.
4. Interpret results from statistical models using ANOVA tables and estimated marginal means.
5. Communicate conclusions of statistical analyses in graphs and/or tables.
6. Correctly analyse, interpret and visualize the results of dirrerential gene expression
analyses, based on RNA sequencing data
Corso singolo

Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.

Programma e organizzazione didattica

Edizione unica

Responsabile
Periodo
Secondo semestre

Programma
Le prime sei lezioni del corso introdurranno gli studenti all'ambiente di programmazione R/RStudio. Queste competenze di programmazione saranno rafforzate durante tutto il corso.
Questo includerà:

Introduzione all'ambiente R per l'analisi dei dati biologici - 1,5 CFU Bio/11 (12 ore)
-Configurazione di progetti in R
-Strutture di base dei dati: data.frame, vettori, matrici
-Importazione di dati in R
-Installazione e gestione dei pacchetti software
-Manipolazione dei dati con il pacchetto dplyr (tidyverse)
-Visualizzazione dei dati con il pacchetto ggplot (tidyverse)
-Simulazione dei dati utilizzando modelli stocastici
-Introduzione a RMarkdown

Le 12 lezioni successive introdurranno gli studenti ai principi dell'inferenza statistica, alla modellizzazione statistica e alla stima dei parametri. Questi concetti saranno illustrati con esempi tratti da dati pubblicati. L'uso di R/RStudio si concentrerà sulla creazione di flussi di analisi trasparenti e riproducibili.

Basi dell'analisi statistica - 1 CFU Bio/18 (8 ore)
-Visualizzazione dei dati e riconoscimento di pattern
-Principi di inferenza statistica
-p-value: misura dell'evidenza contro l'ipotesi nulla
-Modelli statistici per esperimenti biologici, ANOVA
-Valutazione delle assunzioni dei modelli tramite grafici dei residui
-Primo workflow di analisi utilizzando R/RStudio

Esplorazione della struttura della media e della varianza nei modelli statistici - 1 CFU Bio/18 (8 ore)
-Disegni fattoriali, ANOVA con più fattori
-Modelli lineari con covariate
-Modelli lineari misti
-Workflow di analisi completo utilizzando R/RStudio

Progettazione sperimentale, Modelli Lineari Generalizzati e analisi di dati ad alta dimensionalità - 1 CFU Bio/18 (8 ore)
-Principi di progettazione sperimentale: randomizzazione, replicazione, blocchi
-Modelli lineari generalizzati: modello binomiale negativo
-Analisi delle Componenti Principali (PCA)
-Test multipli, correzione del p-value, False Discovery Rate (FDR)

L'ultima parte del corso sarà un'introduzione all'analisi dei dati di Next Generation Sequencing (NGS) utilizzando R, con approfondimenti sui principi teorici e pratici alla base dei metodi più avanzati per l'elaborazione di dati RNA-Seq per la valutazione dell'espressione genica differenziale. In particolare:

Analisi dell'espressione genica differenziale in R - 1 CFU Bio/11 (8 ore)
-Metriche di qualità e controllo di qualità
-Analisi dell'espressione genica differenziale in R
-Correzione per test multipli e False Discovery Rate (FDR)

Visualizzazione e interpretazione dei risultati - 0,5 CFU Bio/11 (4 ore)
-Visualizzazione dei dati: heatmap, scatterplot, boxplot

Le lezioni consisteranno in una descrizione intuitiva dei principi di programmazione, dei metodi bioinformatici e delle statistiche sottostanti, arricchite da esercitazioni pratiche. Gli studenti applicheranno i concetti appresi ad esempi di analisi dati.
Prerequisiti
Conoscenza di argomenti di biologia molecolare di base:
- struttura e proprietà degli acidi nucleici;
- metodi di sequenziamento degli acidi nucleici;
- meccanismi di regolazione dell'espressione genica;
- struttura del gene eucariotico.

Conoscenza informatiche di base:
- gestione file e cartelle
Metodi didattici
Modalità didattica: lezioni frontali affiancate da esercitazioni con dati reali. Gli insegnanti assegneranno degli esercizi alla fine della maggior parte delle lezioni per aiutare a fissare i concetti tra le lezioni. La frequenza è altamente raccomandata.
Materiale di riferimento
W. N. Venables, D. M. Smith and the R Core Team. An introduction to R.
https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf

Grolemund, G., & Wickham, H. (2017). R for Data Science. O'Reilly Media.
https://r4ds.hadley.nz

Chen Y, McCarthy D, Ritchie M, Robinson, M, Smyth G. edgeR: differential expression analysis of digital gene expression data. https://www.bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeRUsersGuide.pdf

Law CW, Alhamdoosh M, Su S, Dong X, Tian L, Smyth GK, Ritchie ME. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Res. 2016 Jun 17;5:ISCB Comm J-1408. doi: 10.12688/f1000research.9005.3. PMID: 27441086; PMCID: PMC4937821.
https://bioconductor.org/packages/release/workflows/vignettes/RNAseq123/inst/doc/limmaWorkflow.html

Glimma: https://bioconductor.org/packages/release/bioc/html/Glimma.html

Copie delle diapositive proiettate durante le lezioni, nonché ulteriori materiali ed esercizi saranno resi disponibili attraverso il sito web del corso sulla piattaforma ARIEL dell'Università degli Studi di Milano. Questo materiale è inteso come supporto alle lezioni frontali e il suo studio non può essere considerato una piena alternativa alla frequenza costante delle lezioni. Il materiale è reso disponibile solo agli studenti iscritti al Corso di Laurea in Biologia Molecolare della Cellula e non deve essere distribuito ad altri senza espresso consenso dei docenti.
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consisterà nella discussione orale di una analisi bioinformatica di espressione differenziale di geni eseguita dagli studenti.
Gli studenti applicheranno i metodi appresi durante il corso per analizzare i dati e presenteranno una relazione descrivendo i loro risultati agli insegnanti.
La consegna della relazione è prevista almeno 48h prima dell'appello d'esame prescelto.
Le relazioni saranno svolti in piccoli gruppi (1-2 studenti per gruppo).
Il voto risulterà dalla valutazione congiunta dei docenti della relazione e della presentazione della stessa (per il 100%)
BIO/11 - BIOLOGIA MOLECOLARE - CFU: 3
BIO/18 - GENETICA - CFU: 3
Lezioni: 48 ore
Docente: Chiara Matteo
Docente/i
Ricevimento:
Giovedì(Thursday) 15:00-17:00
Secondo piano torre B