Bioinformatica

A.A. 2017/2018
Insegnamento per
6
Crediti massimi
48
Ore totali
Lingua
Italiano
Obiettivi formativi
- Saper modellare problemi rilevanti in biologia molecolare come problemi computazionali
- Far acquisire agli studenti capacita' di applicare metodi di pattern matching, metodi di apprendimento automatico e modelli probabilistici all'analisi di dati biomolecolari

Struttura insegnamento e programma

Edizione attiva
Responsabile
Lezioni: 48 ore
Programma
Introduzione.
Tipologie di problemi computazionali e tipologie di dati in bioinformatica. Basi di dati genomiche e proteomiche.

I. Metodi di apprendimento automatico

0. Introduzione ai metodi di apprendimento automatico

1. Tipologie di apprendimento, generalizzazione e valutazione delle capacità di apprendimento
(a) Apprendimento Supervisionato, non supervisonato e semi-supervisionato
(b) Apprendimento, over and underfitting, generalizzazione.
(c) Metodi sperimentali per la stima dell'errore di generalizzazione
2. Apprendimento supervisionato
- Look-up table e Nearest Neighbours.
- Approcci probabilistici e Teorema di Bayes; il problema della dimensionalità e approccio Naive Bayes.
- Reti neurali: Percettrone lineare, Percettrone multistrato e algoritmo di backpropagation
- Support Vector Machines e metodi supervisionati basati su kernel
- Metodi di ensemble
2. Metodi di apprendimento non supervisionato.
Metodi di clustering: k-means, algoritmi di clustering gerarchico, metodi per il clustering di grafi.


II. Metodi supervisionati, semi-supervisionati e non supervisionati in bioinformatica

0. Applicazione dei di metodi machine learning nelle diverse diverse aree della biologia computazionale

1. Il problema della predizione supervisionata della funzione delle proteine (AFP - Automated Function Prediction)
(a) Formalizzazione della AFP come problema di classificazione gerarchico multiclasse e multietichetta
(b) Metodi basati sulla kernelizzazione congiunta dello spazio di input e di output
(c) Metodi basati su ensemble e reti bayesiane
(d) Ensemble gerarchici basati sulle True Path Rule.

2. Inferenze semi-supervisionate in reti biomolecolari
(a) Modellazione di reti biomolecari come grafi
(b) Principali tipologie di problemi di biologia computazionale modellabili come problemi di ranking di nodi su grafi: annotazione funzionale dei geni, ricerca di associazioni gene-malattia, riposizionamento terapeutico dei farmaci.
(c) Algoritmi basati su random walk e random walk con restart
(d) Algoritmi basati su kernel e kernelized score function
(e) Algoritmi basati su reti di Hopfield cost-sensitive.
(f) Tecnologie basate su memoria secondaria e implementazione vertex-centric di algoritmi network-based per il processing di reti biomolecolari di grandi dimensioni.

3. Predizione di varianti genetiche associate a patologie mendeliane.
(a) Varianti genetiche a livello di singolo nucleotide (SNV) e tipologie di feature genomiche associabili a SNV. Malattie genetiche mendeliane e malattie genetiche complesse.
(b) Metodi si apprendimento automatico supervisionato per la predizione di SNV associabili a malattie genetiche mendeliane.
Informazioni sul programma
L'obiettivo principale del corso consiste nel fornire strumenti metodologici per analizzare ed estrarre conoscenza biologica da dati biomolecolari complessi tramite metodi di apprendimento automatico. Il corso è per sua natura interdisciplinare ed aperto agli studenti di Informatica, Fisica, Matematica, Biologia, Biotecnologie e di altre discipline scientifiche.
Propedeuticità
Corsi consigliati: Metodi Statistici per l'Apprendimento e Sistemi Intelligenti
Prerequisiti e modalità di esame
Sono richieste nozioni elementari di analisi matematica e statistica, che verranno comunque opportunamente richiamate durante il corso.

L'esame consta di due parti:

I. Implementazione ed applicazione di un algoritmo per l'analisi di dati bio-molecolari, oppure discussione orale di letteratura scientifica, relativa ad un argomento trattato durante il corso.

II. Discussione orale sugli argomenti trattati durante il corso.
Metodi didattici
La metodologia e' basata prevalentemente su lezioni frontali, con l'ultilizzo di mezzi audio-visivi.
Sono previste anche discussioni di articoli scientifici relativi agli argomenti trattati a lezione.
Materiale didattico e bibliografia
Dalle pagine web del corso sono disponibili le slide delle lezioni ed i riferimenti bibliografici
Periodo
Secondo semestre
Periodo
Secondo semestre
Modalità di valutazione
Esame
Giudizio di valutazione
voto verbalizzato in trentesimi
Docente/i
Ricevimento:
Per appuntamento tramite e-mail
stanza 3011, III piano - Dipartimento di Informatica, via Celoria 18