Methods in bioinformatics

A.A. 2026/2027
6
Crediti massimi
48
Ore totali
SSD
BIOS-08/A
Lingua
Inglese
Obiettivi formativi
High-throughput experimental assays generate large amounts of data that must be handled and
processed appropriately in order to extract meaningful biological knowledge. Bioinformatics
provides methods and tools to perform complex and elaborate analyses of large scale (BIG)
biological data, prompting novel testable hypotheses and allowing their verification. Proficiency in
data handling and processing, and the ability to unravel and highlight complex relationships in
biological data using adequate tools and methods constitute a crucial skill for the modern
biotechnology researcher.
The aims of this course are (i) to introduce the basic principles of procedural and object-oriented
programming, (ii) to present the R programming language and software environment as an
effective instrument for the analysis of large scale biological data, (iii) to provide a primer on
methods for the analysis of gene expression (RNA-Seq) data and their statistical foundations.
The course is ideally linked to those dealing with genomics and bioinformatics.
Risultati apprendimento attesi
After following this course, the students are expected to:
(1) Understand the basic principles of programming and be able to map those concepts to R
programming language specificities and features.
(2) Know the syntax of the R programming language and its basic data types, data structures, and
functions.
(3) Become proficient in splitting simple data analysis procedures into elementary logical steps and
translate them to R functions and scripts.
(4) Know how to import data into the R environment.
(5) Be able to represent data and their relationships using basic R plotting functions.
(6) Know how to manage R software packages and libraries.
(7) Produce impactful reports of an analysis workflow, by integrating text, R code, and plots.
(8) Perform and interpret preliminary RNA-seq data analysis: normalization, Principal Component
Analysis (PCA), and quality control.
(9) Know how to execute differential expression analysis.
(10) Be able to perform post-processing and functional enrichment analysis of differentially
expressed genes.
Corso singolo

Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.

Programma e organizzazione didattica

Edizione unica

Responsabile

Programma
Nella prima parte del corso verranno introdotti i principi fondamentali della programmazione per l'analisi dei dati, utilizzando il linguaggio R come strumento per comprenderne e applicarne i concetti. In particolare, gli studenti acquisiranno familiarità con i seguenti argomenti:

- Tipi di dato e variabili.
- Strutture dati di base: vettori, fattori, matrici, array e liste.
- Funzioni fondamentali del linguaggio R.
- Controllo del flusso di esecuzione: blocchi, istruzioni condizionali e cicli.
- Operazioni sugli insiemi.
- Ambienti di lavoro, funzioni definite dall'utente e script.
- Operazioni di input/output: importazione ed esportazione di dati.
- Rappresentazione grafica di dati biologici: grafici a dispersione, grafici a barre, istogrammi, mappe di calore, boxplot e diagrammi di Venn.
- Pacchetti software, librerie e repository.

Nella seconda parte del corso verrà introdotta l'analisi di dati ottenuti mediante tecnologie di sequenziamento di nuova generazione (Next Generation Sequencing, NGS) utilizzando R, con particolare attenzione ai principi teorici e pratici dei metodi più avanzati per l'analisi di esperimenti RNA-Seq finalizzati allo studio dell'espressione genica differenziale. In particolare, saranno trattati i seguenti argomenti:

- Fondamenti dell'analisi di dati NGS.
- Introduzione alle tecniche di riduzione della dimensionalità e alla statistica descrittiva.
- Normalizzazione, analisi delle componenti principali (PCA) e controllo di qualità dei dati RNA-Seq.
- Introduzione ai test statistici per il confronto dei livelli di espressione genica.
- Analisi dell'espressione genica differenziale.
- Analisi successive all'identificazione dei geni differenzialmente espressi e analisi di arricchimento funzionale.

Le lezioni alterneranno spiegazioni intuitive dei principi di programmazione, dei metodi bioinformatici e delle basi statistiche che li supportano a esercitazioni pratiche. Gli studenti applicheranno progressivamente i concetti introdotti a casi reali di analisi dei dati.

La prima parte del corso (3 CFU), dedicata alla programmazione in R, sarà svolta dal Prof. Zambelli. La seconda parte (3 CFU), svolta dalla Prof.ssa Chiara, si integrerà in continuità con la precedente e sarà dedicata all'analisi di dati NGS.
Prerequisiti
Per una proficua frequenza del corso è fortemente raccomandata la conoscenza degli argomenti fondamentali della biologia molecolare, con particolare riferimento alla trascrizione, alla regolazione dell'espressione genica e al sequenziamento degli acidi nucleici.
Metodi didattici
Si segnala che tutte le lezioni, le esercitazioni, il materiale didattico e le prove di valutazione sono svolti in lingua inglese.

L'insegnamento combina lezioni teoriche ed esercitazioni pratiche su dataset reali o realistici. Al termine della maggior parte delle lezioni verranno proposti esercizi per consolidare i concetti affrontati in aula. Data la natura fortemente applicativa del corso, la frequenza è fortemente consigliata.
Materiale di riferimento
Materiale di riferimento:

W. N. Venables, D. M. Smith e R Core Team. An Introduction to R.
https://cran.r-project.org/doc/manuals/r-release/R-intro.pdf

Chen Y., McCarthy D., Ritchie M., Robinson M., Smyth G. edgeR: differential expression analysis of digital gene expression data.
https://www.bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeRUsersGuide.pdf

Smyth G. K., Ritchie M., Thorne N., Wettenhall J., Shi W., Hu Y. limma: Linear Models for Microarray and RNA-Seq Data User's Guide.
https://bioconductor.org/packages/release/bioc/vignettes/limma/inst/doc/usersguide.pdf

Le copie delle slide proiettate durante le lezioni, insieme a eventuali materiali aggiuntivi e dataset utilizzati per le esercitazioni, saranno rese disponibili attraverso il sito del corso sulla piattaforma myARIEL dell'Università degli Studi di Milano.

Questo materiale ha lo scopo di supportare le lezioni e lo studio individuale, ma non sostituisce la frequenza regolare del corso, soprattutto per la parte pratica.

Il materiale è reso disponibile esclusivamente agli studenti e non deve essere distribuito ad altri senza il consenso esplicito dei docenti.
Modalità di verifica dell’apprendimento e criteri di valutazione
Le conoscenze e le competenze acquisite nel corso saranno verificate mediante una prova orale. Per poter accedere a un appello d'esame, gli studenti dovranno completare un progetto consistente nell'analisi di dati di espressione genica derivanti da esperimenti reali. Al termine dell'attività, gli studenti dovranno redigere e consegnare ai docenti una relazione descrittiva dei risultati ottenuti. La relazione dovrà essere trasmessa almeno 48 ore prima della data dell'appello prescelto. I progetti saranno svolti in piccoli gruppi composti da 1 a 3 studenti.

La prova orale consisterà in una breve esposizione individuale (circa 15 minuti) del progetto svolto e degli argomenti teorici trattati durante il corso. Il voto finale sarà determinato dalla valutazione congiunta dei due docenti secondo i seguenti criteri:

* Conoscenza del linguaggio di programmazione R: 25%
* Principi teorici dell'analisi dell'espressione genica: 25%
* Relazione di progetto e relativa discussione: 50%
BIOS-08/A - Biologia molecolare - CFU: 6
Lezioni: 48 ore
Docente/i
Ricevimento:
Giovedì(Thursday) 15:00-17:00
Secondo piano torre B
Ricevimento:
Venerdì 15.00-16.00 previo appuntamento
Beacon Lab, Piano 2, Torre B, Dip. Bioscienze o su MS Teams