Information retrieval
A.A. 2018/2019
Obiettivi formativi
Non definiti
Risultati apprendimento attesi
Non definiti
Periodo: Secondo semestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.
Programma e organizzazione didattica
Linea Milano
Responsabile
Periodo
Secondo semestre
STUDENTI FREQUENTANTI
Programma
Il corso fornisce un'introduzione generale al tema dell'information retrieval classico e su web.
In particolare, il corso affronta il tema della ricerca di documenti sul web e è specificamente orientato al mining, all'analisi, alla classificazione e al clustering di dati testuali.
Il corso propone una trattazione aggiornata della progettazione e implementazione di sistemi per l'indicizzazione e la ricerca di documenti, dei metodi di valutazione dei sistemi di information retrieval, e un'introduzione all'uso di tecniche di machine learning per collezioni di dati testuali, con particolare riferimento a tecniche di latent e probabilistic semantic indexing.
Infine, il corso fornisce un'introduzione ai nuovi strumenti software NoSql per l'implementazione di sistemi di information retrieval di moderna concezione.
SINTESI DEGLI ARGOMENTI
Sistemi booleani
Vocabolari e dizionari
Indicizzazione
Misure e pesi per i termini
Vector Space Model
Valutazione di sistemi di information retrieval
Sistemi probabilistici e classificazione di testi
Clustering
Decomposizioni di matrici e latent semantic analysis
In particolare, il corso affronta il tema della ricerca di documenti sul web e è specificamente orientato al mining, all'analisi, alla classificazione e al clustering di dati testuali.
Il corso propone una trattazione aggiornata della progettazione e implementazione di sistemi per l'indicizzazione e la ricerca di documenti, dei metodi di valutazione dei sistemi di information retrieval, e un'introduzione all'uso di tecniche di machine learning per collezioni di dati testuali, con particolare riferimento a tecniche di latent e probabilistic semantic indexing.
Infine, il corso fornisce un'introduzione ai nuovi strumenti software NoSql per l'implementazione di sistemi di information retrieval di moderna concezione.
SINTESI DEGLI ARGOMENTI
Sistemi booleani
Vocabolari e dizionari
Indicizzazione
Misure e pesi per i termini
Vector Space Model
Valutazione di sistemi di information retrieval
Sistemi probabilistici e classificazione di testi
Clustering
Decomposizioni di matrici e latent semantic analysis
Informazioni sul programma
Rispetto al testo di riferimento Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 496). Cambridge: Cambridge university press. (http://nlp.stanford.edu/IR-book/ ) il programma corrisponde ai capitoli:
1-3, 6-9, 11-18
1-3, 6-9, 11-18
Prerequisiti
La prova d'esame è articolatà in due attività:
Realizzazione di un progetto d'esame da concordare col docente. Il progetto mira a valutare la comprensione dei temi del corso e la capacità del candidato di individuare soluzioni innovative rispetto alla letteratura.
Partecipazione a una prova di programmazione centrata sull'uso delle tecnologie NoSql. La prova di svolgerà nel periodo prossimo alla conclusione del corso (fine aprile / inizio maggio) in concomitanza con l'analoga prova del corso di Gestione dell'Informazione.
La partecipazione a tale prova è obbligatoria e riservata agli studenti frequentanti.
Il progetto sarà valutato attraverso un colloquio orale sui risultati del progetto e sui temi del corso a esso correlati. La valutazione terrà anche conto degli esiti della prova di programmazione.
Realizzazione di un progetto d'esame da concordare col docente. Il progetto mira a valutare la comprensione dei temi del corso e la capacità del candidato di individuare soluzioni innovative rispetto alla letteratura.
Partecipazione a una prova di programmazione centrata sull'uso delle tecnologie NoSql. La prova di svolgerà nel periodo prossimo alla conclusione del corso (fine aprile / inizio maggio) in concomitanza con l'analoga prova del corso di Gestione dell'Informazione.
La partecipazione a tale prova è obbligatoria e riservata agli studenti frequentanti.
Il progetto sarà valutato attraverso un colloquio orale sui risultati del progetto e sui temi del corso a esso correlati. La valutazione terrà anche conto degli esiti della prova di programmazione.
Metodi didattici
Lezioni frontali
Materiale di riferimento
STUDENTI NON FREQUENTANTI
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 496). Cambridge: Cambridge university press. (http://nlp.stanford.edu/IR-book/)
Appunti e materiali forniti dal docente
Appunti e materiali forniti dal docente
Programma
Il corso fornisce un'introduzione generale al tema dell'information retrieval classico e su web.
In particolare, il corso affronta il tema della ricerca di documenti sul web e è specificamente orientato al mining, all'analisi, alla classificazione e al clustering di dati testuali.
Il corso propone una trattazione aggiornata della progettazione e implementazione di sistemi per l'indicizzazione e la ricerca di documenti, dei metodi di valutazione dei sistemi di information retrieval, e un'introduzione all'uso di tecniche di machine learning per collezioni di dati testuali, con particolare riferimento a tecniche di latent e probabilistic semantic indexing.
Infine, il corso fornisce un'introduzione ai nuovi strumenti software NoSql per l'implementazione di sistemi di information retrieval di moderna concezione.
SINTESI DEGLI ARGOMENTI
Sistemi booleani
Vocabolari e dizionari
Indicizzazione
Misure e pesi per i termini
Vector Space Model
Valutazione di sistemi di information retrieval
Sistemi probabilistici e classificazione di testi
Clustering
Decomposizioni di matrici e latent semantic analysis
In particolare, il corso affronta il tema della ricerca di documenti sul web e è specificamente orientato al mining, all'analisi, alla classificazione e al clustering di dati testuali.
Il corso propone una trattazione aggiornata della progettazione e implementazione di sistemi per l'indicizzazione e la ricerca di documenti, dei metodi di valutazione dei sistemi di information retrieval, e un'introduzione all'uso di tecniche di machine learning per collezioni di dati testuali, con particolare riferimento a tecniche di latent e probabilistic semantic indexing.
Infine, il corso fornisce un'introduzione ai nuovi strumenti software NoSql per l'implementazione di sistemi di information retrieval di moderna concezione.
SINTESI DEGLI ARGOMENTI
Sistemi booleani
Vocabolari e dizionari
Indicizzazione
Misure e pesi per i termini
Vector Space Model
Valutazione di sistemi di information retrieval
Sistemi probabilistici e classificazione di testi
Clustering
Decomposizioni di matrici e latent semantic analysis
Prerequisiti
La prova per gli studenti non frequentanti consta di un approfondito colloquio orale su tutto il programma del corso.
Materiale di riferimento
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 496). Cambridge: Cambridge university press. (http://nlp.stanford.edu/IR-book/)
Docente/i
Ricevimento:
Su appuntamento. Il colloquio si svolgerà online dopo aver contattato il docente per posta elettronica.
Online. In caso di appuntamento di persona, Dipartimento di Informatica, via Celoria 18 Milano, Stanza 7012 (7 piano)