Analisi di dati su larga scala

A.A. 2018/2019
Insegnamento per
6
Crediti massimi
48
Ore totali
SSD
INF/01
Lingua
Italiano
Obiettivi formativi
L'insegnamento si propone di introdurre le tematiche principali legate all'elaborazione di una mole di dati di dimensioni tali da non poter essere memorizzata su elaboratori di tipo standard.
Lo studente avrà acquisito competenze avanzate che gli permetteranno di utilizzare sistemi di memorizzazione e calcolo distribuito, nonché di progettare e realizzare sistemi per l'analisi di dati di grandi dimensioni e utilizzare tecniche algoritmiche specifiche per i problemi di identificazione di duplicati, raccomandazione, analisi di relazioni, analisi di stream, market-basked analysis, clustering e machine learning.

Struttura insegnamento e programma

Linea Milano
Edizione attiva
Responsabile
INF/01 - INFORMATICA - CFU: 6
Lezioni: 48 ore
Docente: Malchiodi Dario
STUDENTI FREQUENTANTI
Programma
File system su larga scala
Algoritmi Map-Reduce
I framework Hadoop e Spark
Basi di dati schema-less
Ricerca di elementi simili
Analisi di stream di dati
Analisi di link
Insiemi di elementi frequenti
Clustering
Recommendation Systems
Apprendimento automatico su larga scala
Informazioni sul programma
Competenze acquisite.
Lo studente avrà acquisito competenze avanzate che gli permetteranno di utilizzare sistemi di memorizzazione e calcolo distribuito, nonché di progettare e realizzare sistemi per l'analisi di dati di grandi dimensioni e utilizzare tecniche algoritmiche specifiche per i problemi di identificazione di duplicati, raccomandazione, analisi di relazioni, analisi di stream, market-basked analysis, clustering e machine learning.
Propedeuticità
Per gli studenti di laurea magistrale: nessuna.
Per gli studenti di laurea triennale: programmazione, statistica e analisi dei dati.
Prerequisiti e modalità di esame
Prerequisiti: basi di probabilità e statistica, conoscenza di un linguaggio di programmazione.
Modalità di esame: orale.
Metodi didattici
Lezioni frontali
Materiale didattico e bibliografia
Anand Rajaraman and Jeff Ullman, Mining of Massive Datasets, available both as a freely downloadable PDF (http://infolab.stanford.edu/~ullman/mmds.html) and published in hardcopy by Cambridge University Press (ISBN:9781107015357)
Dispense fornite a lezione
STUDENTI NON FREQUENTANTI
Programma
File system su larga scala
Algoritmi Map-Reduce
I framework Hadoop e Spark
Basi di dati schema-less
Ricerca di elementi simili
Analisi di stream di dati
Analisi di link
Insiemi di elementi frequenti
Clustering
Recommendation Systems
Apprendimento automatico su larga scala
Prerequisiti e modalità di esame
Prerequisiti: basi di probabilità e statistica, conoscenza di un linguaggio di programmazione.
Modalità di esame: orale.
Materiale didattico e bibliografia
Anand Rajaraman and Jeff Ullman, Mining of Massive Datasets, available both as a freely downloadable PDF (http://infolab.stanford.edu/~ullman/mmds.html) and published in hardcopy by Cambridge University Press (ISBN:9781107015357)
Lecture notes
Periodo
Primo semestre
Periodo
Primo semestre
Modalità di valutazione
Esame
Giudizio di valutazione
voto verbalizzato in trentesimi
Docente/i
Ricevimento:
Su appuntamento
Stanza 5015, Dipartimento di Informatica