Information retrieval

A.A. 2018/2019
Insegnamento per
6
Crediti massimi
48
Ore totali
SSD
INF/01
Lingua
Italiano

Struttura insegnamento e programma

Linea Milano
Edizione attiva
Responsabile
INF/01 - INFORMATICA - CFU: 6
Lezioni: 48 ore
Docente: Ferrara Alfio
STUDENTI FREQUENTANTI
Programma
Il corso fornisce un'introduzione generale al tema dell'information retrieval classico e su web.
In particolare, il corso affronta il tema della ricerca di documenti sul web e è specificamente orientato al mining, all'analisi, alla classificazione e al clustering di dati testuali.
Il corso propone una trattazione aggiornata della progettazione e implementazione di sistemi per l'indicizzazione e la ricerca di documenti, dei metodi di valutazione dei sistemi di information retrieval, e un'introduzione all'uso di tecniche di machine learning per collezioni di dati testuali, con particolare riferimento a tecniche di latent e probabilistic semantic indexing.
Infine, il corso fornisce un'introduzione ai nuovi strumenti software NoSql per l'implementazione di sistemi di information retrieval di moderna concezione.

SINTESI DEGLI ARGOMENTI

Sistemi booleani
Vocabolari e dizionari
Indicizzazione
Misure e pesi per i termini
Vector Space Model
Valutazione di sistemi di information retrieval
Sistemi probabilistici e classificazione di testi
Clustering
Decomposizioni di matrici e latent semantic analysis
Informazioni sul programma
Rispetto al testo di riferimento Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 496). Cambridge: Cambridge university press. (http://nlp.stanford.edu/IR-book/ ) il programma corrisponde ai capitoli:
1-3, 6-9, 11-18
Prerequisiti e modalità di esame
La prova d'esame è articolatà in due attività:
Realizzazione di un progetto d'esame da concordare col docente. Il progetto mira a valutare la comprensione dei temi del corso e la capacità del candidato di individuare soluzioni innovative rispetto alla letteratura.
Partecipazione a una prova di programmazione centrata sull'uso delle tecnologie NoSql. La prova di svolgerà nel periodo prossimo alla conclusione del corso (fine aprile / inizio maggio) in concomitanza con l'analoga prova del corso di Gestione dell'Informazione.
La partecipazione a tale prova è obbligatoria e riservata agli studenti frequentanti.
Il progetto sarà valutato attraverso un colloquio orale sui risultati del progetto e sui temi del corso a esso correlati. La valutazione terrà anche conto degli esiti della prova di programmazione.
Metodi didattici
Lezioni frontali
Materiale didattico e bibliografia
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 496). Cambridge: Cambridge university press. (http://nlp.stanford.edu/IR-book/)
Appunti e materiali forniti dal docente
STUDENTI NON FREQUENTANTI
Programma
Il corso fornisce un'introduzione generale al tema dell'information retrieval classico e su web.
In particolare, il corso affronta il tema della ricerca di documenti sul web e è specificamente orientato al mining, all'analisi, alla classificazione e al clustering di dati testuali.
Il corso propone una trattazione aggiornata della progettazione e implementazione di sistemi per l'indicizzazione e la ricerca di documenti, dei metodi di valutazione dei sistemi di information retrieval, e un'introduzione all'uso di tecniche di machine learning per collezioni di dati testuali, con particolare riferimento a tecniche di latent e probabilistic semantic indexing.
Infine, il corso fornisce un'introduzione ai nuovi strumenti software NoSql per l'implementazione di sistemi di information retrieval di moderna concezione.

SINTESI DEGLI ARGOMENTI

Sistemi booleani
Vocabolari e dizionari
Indicizzazione
Misure e pesi per i termini
Vector Space Model
Valutazione di sistemi di information retrieval
Sistemi probabilistici e classificazione di testi
Clustering
Decomposizioni di matrici e latent semantic analysis
Prerequisiti e modalità di esame
La prova per gli studenti non frequentanti consta di un approfondito colloquio orale su tutto il programma del corso.
Materiale didattico e bibliografia
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 496). Cambridge: Cambridge university press. (http://nlp.stanford.edu/IR-book/)
Periodo
Secondo semestre
Periodo
Secondo semestre
Modalità di valutazione
Esame
Giudizio di valutazione
voto verbalizzato in trentesimi
Siti didattici
Docente/i
Ricevimento:
Venerdì, 11.30 - 13.30
Dipartimento di Informatica, via Comelico 39, Stanza S221