Informatica e statistica per le biotecnologie

A.A. 2018/2019
6
Crediti massimi
48
Ore totali
SSD
BIO/10 CHIM/06 INF/01 SECS-S/01
Lingua
Italiano
Obiettivi formativi
Non definiti
Risultati apprendimento attesi
Non definiti
Corso singolo

Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.

Programma e organizzazione didattica

Edizione unica

Responsabile
Periodo
Secondo semestre

Prerequisiti
Per la parte di informatica l'esame sarà diviso in due parti: una prova pratica iniziale e, nel caso la prova abbia esito positivo, una prova orale basata sulla verifica della comprensione ed elaborazione del programma svolto a lezione.

Per la parte di statistica l'esame é scritto e finalizzato alla verifica della comprensione delle problematiche e dei metodi presentati durante il corso (vantaggi e svantaggi, applicabilità, attendibilità, ecc.). Per ogni domanda e/o problema é richiesta una risposta motivata. Non é richiesta memorizzazione delle formule dei metodi presentati durante il corso. É possibile portare libri, dispense, appunti di lezione, ecc. per consultazione durante l'esame. Non é consentito l'uso di cellulare, tablet o altri dispositivi collegati a internet. SI RACCOMANDA DI PORTARE LA CALCOLATRICE.
- Durata: ~1h30m
- Esame unico
- Verbalizzato in trentesimi
Informatica
Programma
L'unità didattica di Informatica inizierà con una sezione generale sulle tecnologie dell'informazione e della comunicazione, con particolare attenzione alla logica su cui è basato il funzionamento dei calcolatori. Successivamente, verranno introdotti i metodi informatici applicati alla gestione dell'informazione scientifica e biologica, di utilità in campo biotecnologico (2 CFU).
All'unità didattica sono associate 16 ore di esercitazione a posto singolo in aula di informatica (1 CFU).

Programma dettagliato:

1. La codifica dell'informazione
· Il concetto di informazione
· La codifica dei dati e delle istruzioni
· Codifica analogica e digitale

2. Elaborazione e strutturazione dell'informazione
· Problemi e algoritmi
· Il problema della risoluzione dei problemi
· Le strutture dati
· L'algebra booleana

3. I linguaggi per la formalizzazione
· I linguaggi di programmazione
· Il paradigma di programmazione imperativo-procedurale
· Altri paradigmi di programmazione
· Linguaggi per la descrizione e la manipolazione dei dati

4. Le infrastrutture hardware
· L'architettura di riferimento
· L'esecutore
· La memoria
· I dispositivi per le memorie di massa
· L'interfaccia di ingresso/uscita (I/O)
· Le principali periferiche

5. Evoluzione e organizzazione dei genomi
· Genoma, trascrittoma e proteoma
· Trasmissione dell'informazione genica
· Mappe ad alta risoluzione
· Studi di associazione genomica
· Recuperare un gene in un genoma
· Progetti di sequenziamento genico
· Genoma procariotico
· Metagenomica
· Genomi degli eukarya
· Genoma umano
· Diversità genetica
· Evoluzione dei genomi
· Genomica comparativa degli eukarya

6. Pubblicazioni scientifiche ed archivi: media, contenuto ed accesso
· Letteratura scientifica
· Fattori economici che controllano l'accesso alle pubblicazione per il sistema istruzione
· Biblioteche tradizionali e digitali
· L'esplosione dell'informazione
· Basi di dati
· Processamento del linguaggio naturale

7. Archivi e recupero delle informazioni
· Indicizzazione delle basi di dati e specificazione dei termini di ricerca
· Organizzazione degli archivi
· Metodi di accesso agli archivi
Materiale di riferimento
Donatella Sciuto, Giacomo Buonanno e Luca Mari. Introduzione ai sistemi informatici 5/ed. McGraw-Hill
Arthur M. Lesk. Introductions to bioinformatics 4/ed. Oxford University Press
Statistica
Programma
Introduzione alla statistica. Elementi di matematica e logica necessari per lo studio della statistica.

Statistica descrittiva e inferenziale. Descrizione dei set di dati: tabelle di frequenza, line graphs, bar graphs, frequency polygons; relative frequency graphs; grafici a torta. Raggruppamento dei dati: istogrammi, il problema del 'bin size'; steam-and-leaf plots.
Indici statistici: media aritmetica, media pesata, media geometrica, media quadratica, mediana, moda (distribuzioni unimodali, bimodali, multimodali). Outliers. Percentili e loro rappresentazione, box plot. Indici di dispersione statistici. Deviazioni, deviazioni assolute, varianza, deviazione standard, formula alternativa della deviazione standard, interpretazione della deviazione standard (regola empirica).

Set di dati accoppiati: notazione simbolica, rappresentazione grafica (scatter diagram). Correlazione positiva e negativa. Regressione lineare e non lineare. Metodo dei minimi quadrati: vertical offsets, coefficiente angolare e intercetta della retta di regressione di y rispetto a x. Formule alternative. Interpretazione grafica in termini di vertical offsets.

Dispersione dei dati per set di dati accoppiati. Horizontal offsets. Retta di regressione dei minimi quadrati di x rispetto a y. Interpretazione grafica in termini di horizontal offsets. Confronto fra retta di regressione di y rispetto a x e di x rispetto a y, centro della distribuzione. Indice di dispersione dei dati: coefficiente di correlazione di Pearson 'r', convenzione dei segni, interpretazione di 'r'. Espressione di 'r' in termini di covarianza di x e y, deviazione standard di x e deviazione standard di y (formule alternative). Correlazione e causalità, spurious relationships. Coefficiente di determinazione 'R^2'.

Probabilità. Esperimento, outcome, spazio campionario, evento. Evento unione, evento intersezione, eventi disgiunti, evento nullo, evento complemento. Rappresentazione mediante Venn diagrams. Proprietà della probabilità. Probabilità di eventi complessi: regola della addizione, probabilità condizionata, regola della moltiplicazione (per eventi dipendenti e indipendenti). Risultati dei test: veri positivi, falsi positivi, veri negativi, falsi negativi. Sensibilità e specificità. Derivazione del Teorema di Bayes, interpretazione dei risultati di test diagnostici.

Variabili casuali discrete. Probabilità e distribuzione di probabilità. Valore atteso di variabili casuali discrete e sue proprietà. Varianza e deviazione standard di variabili casuali discrete.
Variabili casuali continue. Funzione densità di probabilità e sue proprietà, valore atteso, deviazione standard. Variabili casuali continue con distribuzione normale. Distribuzione normale (Gaussiana) e sue proprietà. Approximation rule. Variabili casuali continue con distribuzione normale standardizzata. Distribuzione normale standardizzata.

Cenni di teoria degli errori. Errore assoluto, errore relativo. Tipi di errore: errori grossolani, determinati (sistematici), indeterminati (casuali). Fonti di errore e loro eliminabilità. Accuratezza, precisione. Cenni di propagazione degli errori. Distribuzione normale di errori indeterminati.

La popolazione e il campione. Media campionaria e deviazione standard campionaria, media della popolazione e deviazione standard della popolazione. Intervallo di confidenza.
Materiale di riferimento
Testi principali:

(1)
- Introductory Statistics
- Sheldon M.Ross
- Elsevier AP - Third Edition

(2)
- Statistica - L'arte e la scienza di imparare dai dati
- Alan Agresti, Christine Franklin
- Pearson


Per approfondimenti:

(3)
- Fundamentals of Analytical Chemistry (Solo Cap.2 su 'Errori')
- Skoog, West, Holler
- International Edition

(4)
- Basic epidemiology
- R.Bonita, R.Beaglehole, T.Kjellström
- World Health Organization
Moduli o unità didattiche
Informatica
BIO/10 - BIOCHIMICA
CHIM/06 - CHIMICA ORGANICA
INF/01 - INFORMATICA
SECS-S/01 - STATISTICA
Lezioni: 24 ore
Docente: Re' Matteo

Statistica
BIO/10 - BIOCHIMICA
CHIM/06 - CHIMICA ORGANICA
INF/01 - INFORMATICA
SECS-S/01 - STATISTICA
Lezioni: 24 ore
Docente: Di Domizio Alessandro

Docente/i
Ricevimento:
Concordare via email e/o su piattaforma Microsoft Teams. Per specifici corsi fare riferimento al sito Ariel del corso.
Milano - via Celoria 18 (stanza 3010) e/o Ms Teams/Zoom