Metodi bioinformatici

A.A. 2014/2015
Insegnamento per
6
Crediti massimi
48
Ore totali
Lingua
Italiano
Obiettivi formativi
Il corso ha come obiettivo fornire strumenti metodologici per l'analisi di dati biomolecolari complessi, tramite lo studio e l'applicazione di metodi di apprendimento automatico.
Il corso tratta alcuni problemi rilevanti nell'ambito della bioinformatica, inserendoli nel contesto delle principali aree di ricerca di questa disciplina.
Le lezioni alternano una trattazione intuitiva dei metodi di biologia computazionale con laboratori in cui le nozioni apprese sono applicate all'analisi di dati biomolecolari reali.

Struttura insegnamento e programma

Edizione attiva
Responsabile
Lezioni: 48 ore
Programma
0. Modulo preliminare sul linguaggio R. Identificatori e variabili; operatori, espressioni e istruzioni. Strutture dati fondamentali in R: vettori, fattori, matrici, array, liste. Strutture di controllo del flusso di esecuzione: blocchi, istruzioni condizionali, iterazioni. Funzioni e script. Operazioni di I/O.Programmazione object oriented in R. Package ed "estensioni" del linguaggio R. Il progetto Bioconductor.
1.Bioinformatica come approccio interdisciplinare alle discipline "omiche" (genomica, proteomica, trascrittomica, metabolomica)
2. Metodi non supervisionati.
2.1. Algoritmi di clustering per l'analisi di dati omici: algoritmi k-means, fuzzy k-means, algoritmi gerarchici, self-organizing maps.
2.2 Analisi dell'affidabilita' dei cluster con metodi basati sulla stabilita'. Applicazioni alla ricerca di sottoclassi patologiche clinicamente rilevanti.
3. Metodi supervisionati.
3.1 Metodi per l'analisi dell'arricchimento funzionale.
Analisi dell'espressione differenziale: t-test, test di Wilcoxon, test non parametrici. Analisi dell'arricchimento funzionale di insiemi di geni rispetto ai termini della Gene Ontology e rispetto ai pathway attivati in diverse condizioni fisiologiche e patologiche.
3.2 Predizione delle funzioni geniche. Metodi di apprendimento supervisionato per la predizione delle annotazioni funzionali dei geni: classificatori Naive-Bayes, reti neurali, Support Vector Machine. Metodi di ensemble per l'integrazione di sorgenti multiple di informazione "omica".
4. Metodi semi-supervisionati.
4.1 Metodi per l'analisi di reti bio-molecolari. Reti di interazione biomolecolare, reti di interazione funzionale e loro modellazione come grafi. Algoritmi basati su grafi per l'analisi semi-supervisionata di reti biomolecolari: Guilt-by-association (GBA); Random walk (RW); random walk con restart (RWR); Algoritmi di label propagation.
4.2 Predizione della funzione delle proteine e predizione della associazione di geni a malattie come problemi di ranking dei nodi in grafi etichettati.
Informazioni sul programma
Esame orale.
Prerequisiti e modalità di esame
Prerequisiti
Sono richieste conoscenze di base sul linguaggio R. All'inizio del corso verrà comunque svolto un modulo didattico dedicato a tale linguaggio, poiché le applicazioni dei metodi studiati a lezione saranno svolte utilizzando package software in linguaggio R.
Modalità di esame
L'esame si articola in due parti:
a) Sviluppo e implementazione di un metodo di biologia computazionale discusso a lezione e sua applicazione ad un problema rilevante nell'ambito della biologia molecolare.
Redazione di un report scritto che sintetizzi i metodi ed i risultati ottenuti.
b) Discussione orale del report e degli argomenti trattati durante il corso.
Metodi didattici
Modalità di frequenza: fortemente consigliata; modalità di erogazione: tradizionale.
Materiale didattico e bibliografia
G. Yona Introduction to Computational Proteomics Chapman & Hall/CRC, 2011.
Z.R. Yang, Machine learning approaches to bioinformatics, World Scientific, 2010.
Periodo
Secondo semestre
Periodo
Secondo semestre
Modalità di valutazione
Esame
Giudizio di valutazione
voto verbalizzato in trentesimi
Docente/i
Ricevimento:
Per appuntamento tramite e-mail
stanza 3011, III piano - Dipartimento di Informatica, via Celoria 18