Knowledge extraction and information retrieval

A.A. 2020/2021
6
Crediti massimi
40
Ore totali
SSD
INF/01
Lingua
Inglese
Obiettivi formativi
The course provides a general introduction to information retrieval research concerning both the state of the art and the main research trends in the field. In particular, the course addresses the issues of document retrieval, document classification, topic discovery and language modeling. Besides an updated review of the literature, the course is then focused on the evaluation of information retrieval systems, the use of machine learning techniques on textual data collections, and on latent and probabilistic semantic indexing. Finally, the course provides also an introduction to the use of NoSql databases for the implementation of information retrieval systems.
Risultati apprendimento attesi
Students will acquire the following skills: 1) knowing and understanding the main topics as well as the research issues and the future trends in the field of information retrieval; 2) learn how to apply natural language processing, indexing, clustering and classification techniques to a corpus of texts for a specific information need; 3) being able to judge the quality of different design and implementation choices; 4) being able to design, implement, and evaluate a specific project focused on document search or document classification; 5) understand the notion of language model and being able to detect language specificities and topics in a corpus of text documents; 6) being able to use the Python stack of libraries and tools required to develop a text analysis project.
Programma e organizzazione didattica

Single session

Responsabile
Periodo
Secondo trimestre
La didattica per la fase emergenziale sarà erogata in forma di lezioni in modalità sincrona utlizzando la piattaforma Zoom.
Programma
L'insegnamento fornisce un'introduzione generale al tema dell'information retrieval classico e su web. In particolare, l'insegnamento affronta il tema della ricerca di documenti sul web e è specificamente orientato al mining, all'analisi, alla classificazione e al clustering di dati testuali. L'insegnamento propone una trattazione aggiornata della progettazione e implementazione di sistemi per l'indicizzazione e la ricerca di documenti, dei metodi di valutazione dei sistemi di information retrieval, e un'introduzione all'uso di tecniche di machine learning per collezioni di dati testuali, con particolare riferimento a tecniche di latent e probabilistic semantic indexing. Infine, l'insegnamento fornisce un'introduzione ai nuovi strumenti software NoSql per l'implementazione di sistemi di information retrieval di moderna concezione.

ARGOMENTI PRINCIPALI
Sistemi booleani
Vocabolari e dizionari
Indicizzazione
Misure e pesi per i termini
Vector Space Model
Valutazione di sistemi di information retrieval
Sistemi probabilistici e classificazione di testi
Clustering
Decomposizioni di matrici e latent semantic analysis
Word e Sentence embedding
Statistical and Neural Language models
Prerequisiti
Competenze di base sulla gestione dei dati. Elementi di statistica.
Metodi didattici
L'insegnamento è erogato in forma di lezioni frontali con ampio ricorso a esempi e materiali di supporto in forma di notebook Python. E' previsto l'uso di slide e materiali didattici che saranno progressivamente resi disponibili sul sito web dell'insegnamento in piattaforma Ariel (https://aferrarair.ariel.ctu.unimi.it).
La frequenza, per quanto non obbligatoria, è fortemente consigliata.
Materiale di riferimento
- Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 496). Cambridge: Cambridge university press. (http://nlp.stanford.edu/IR-book/)
- Appunti, notebook e materiali forniti dal docente e pubblicati sul sito web dell'insegnamento (https://aferrarair.ariel.ctu.unimi.it)
Modalità di verifica dell’apprendimento e criteri di valutazione
Procedura d'esame
Sviluppo di un progetto. L'argomento del progetto deve essere discusso in precedenza con il docente. Il progetto dovrebbe dimostrare la comprensione degli argomenti delle lezioni e la capacità di proporre e motivare soluzioni innovative a specifici problemi di ricerca.

Il progetto sarà valutato attraverso una discussione con il docente sui risultati del progetto e sugli argomenti correlati del corso. La valutazione terrà conto sia del progetto sia del colloquio.

Studenti che non hanno preso parte alle lezioni
Discussione approfondita sugli argomenti del corso con il docente.

Come fare l'esame
L'uso del servizio SIFA per partecipare all'esame è obbligatorio. Dopo la registrazione a un esame su SIFA, gli studenti sono invitati a contattare il docente per programmare la discussione.
INF/01 - INFORMATICA - CFU: 6
Lezioni: 40 ore
Docente: Ferrara Alfio
Docente/i
Ricevimento:
Venerdì, 15.00 - 16.00
Dipartimento di Informatica, via Celoria 18 Milano, Stanza 7012 (7 piano)