Analisi di dati su larga scala
A.A. 2018/2019
Obiettivi formativi
L'insegnamento si propone di introdurre le tematiche principali legate all'elaborazione di una mole di dati di dimensioni tali da non poter essere memorizzata su elaboratori di tipo standard.
Risultati apprendimento attesi
Lo studente avrà acquisito competenze avanzate che gli permetteranno di utilizzare sistemi di memorizzazione e calcolo distribuito, nonché di progettare e realizzare sistemi per l'analisi di dati di grandi dimensioni e utilizzare tecniche algoritmiche specifiche per i problemi di identificazione di duplicati, raccomandazione, analisi di relazioni, analisi di stream, market-basked analysis, clustering e machine learning.
Periodo: Primo semestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.
Programma e organizzazione didattica
Linea Milano
Responsabile
Periodo
Primo semestre
STUDENTI FREQUENTANTI
Programma
File system su larga scala
Algoritmi Map-Reduce
I framework Hadoop e Spark
Basi di dati schema-less
Ricerca di elementi simili
Analisi di stream di dati
Analisi di link
Insiemi di elementi frequenti
Clustering
Recommendation Systems
Apprendimento automatico su larga scala
Algoritmi Map-Reduce
I framework Hadoop e Spark
Basi di dati schema-less
Ricerca di elementi simili
Analisi di stream di dati
Analisi di link
Insiemi di elementi frequenti
Clustering
Recommendation Systems
Apprendimento automatico su larga scala
Informazioni sul programma
Competenze acquisite.
Lo studente avrà acquisito competenze avanzate che gli permetteranno di utilizzare sistemi di memorizzazione e calcolo distribuito, nonché di progettare e realizzare sistemi per l'analisi di dati di grandi dimensioni e utilizzare tecniche algoritmiche specifiche per i problemi di identificazione di duplicati, raccomandazione, analisi di relazioni, analisi di stream, market-basked analysis, clustering e machine learning.
Lo studente avrà acquisito competenze avanzate che gli permetteranno di utilizzare sistemi di memorizzazione e calcolo distribuito, nonché di progettare e realizzare sistemi per l'analisi di dati di grandi dimensioni e utilizzare tecniche algoritmiche specifiche per i problemi di identificazione di duplicati, raccomandazione, analisi di relazioni, analisi di stream, market-basked analysis, clustering e machine learning.
Propedeuticità
Per gli studenti di laurea magistrale: nessuna.
Per gli studenti di laurea triennale: programmazione, statistica e analisi dei dati.
Per gli studenti di laurea triennale: programmazione, statistica e analisi dei dati.
Prerequisiti
Prerequisiti: basi di probabilità e statistica, conoscenza di un linguaggio di programmazione.
Modalità di esame: orale.
Modalità di esame: orale.
Metodi didattici
Lezioni frontali
Materiale di riferimento
STUDENTI NON FREQUENTANTI
Anand Rajaraman and Jeff Ullman, Mining of Massive Datasets, available both as a freely downloadable PDF (http://infolab.stanford.edu/~ullman/mmds.html) and published in hardcopy by Cambridge University Press (ISBN:9781107015357)
Dispense fornite a lezione
Dispense fornite a lezione
Programma
File system su larga scala
Algoritmi Map-Reduce
I framework Hadoop e Spark
Basi di dati schema-less
Ricerca di elementi simili
Analisi di stream di dati
Analisi di link
Insiemi di elementi frequenti
Clustering
Recommendation Systems
Apprendimento automatico su larga scala
Algoritmi Map-Reduce
I framework Hadoop e Spark
Basi di dati schema-less
Ricerca di elementi simili
Analisi di stream di dati
Analisi di link
Insiemi di elementi frequenti
Clustering
Recommendation Systems
Apprendimento automatico su larga scala
Prerequisiti
Prerequisiti: basi di probabilità e statistica, conoscenza di un linguaggio di programmazione.
Modalità di esame: orale.
Modalità di esame: orale.
Materiale di riferimento
Anand Rajaraman and Jeff Ullman, Mining of Massive Datasets, available both as a freely downloadable PDF (http://infolab.stanford.edu/~ullman/mmds.html) and published in hardcopy by Cambridge University Press (ISBN:9781107015357)
Lecture notes
Lecture notes
Docente/i