Analisi di dati su larga scala

A.A. 2018/2019
6
Crediti massimi
48
Ore totali
SSD
INF/01
Lingua
Italiano
Obiettivi formativi
L'insegnamento si propone di introdurre le tematiche principali legate all'elaborazione di una mole di dati di dimensioni tali da non poter essere memorizzata su elaboratori di tipo standard.
Risultati apprendimento attesi
Lo studente avrà acquisito competenze avanzate che gli permetteranno di utilizzare sistemi di memorizzazione e calcolo distribuito, nonché di progettare e realizzare sistemi per l'analisi di dati di grandi dimensioni e utilizzare tecniche algoritmiche specifiche per i problemi di identificazione di duplicati, raccomandazione, analisi di relazioni, analisi di stream, market-basked analysis, clustering e machine learning.
Corso singolo

Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.

Programma e organizzazione didattica

Linea Milano

Responsabile
Periodo
Primo semestre

STUDENTI FREQUENTANTI
Programma
File system su larga scala
Algoritmi Map-Reduce
I framework Hadoop e Spark
Basi di dati schema-less
Ricerca di elementi simili
Analisi di stream di dati
Analisi di link
Insiemi di elementi frequenti
Clustering
Recommendation Systems
Apprendimento automatico su larga scala
Informazioni sul programma
Competenze acquisite.
Lo studente avrà acquisito competenze avanzate che gli permetteranno di utilizzare sistemi di memorizzazione e calcolo distribuito, nonché di progettare e realizzare sistemi per l'analisi di dati di grandi dimensioni e utilizzare tecniche algoritmiche specifiche per i problemi di identificazione di duplicati, raccomandazione, analisi di relazioni, analisi di stream, market-basked analysis, clustering e machine learning.
Propedeuticità
Per gli studenti di laurea magistrale: nessuna.
Per gli studenti di laurea triennale: programmazione, statistica e analisi dei dati.
Prerequisiti
Prerequisiti: basi di probabilità e statistica, conoscenza di un linguaggio di programmazione.
Modalità di esame: orale.
Metodi didattici
Lezioni frontali
Materiale di riferimento
Anand Rajaraman and Jeff Ullman, Mining of Massive Datasets, available both as a freely downloadable PDF (http://infolab.stanford.edu/~ullman/mmds.html) and published in hardcopy by Cambridge University Press (ISBN:9781107015357)
Dispense fornite a lezione
STUDENTI NON FREQUENTANTI
Programma
File system su larga scala
Algoritmi Map-Reduce
I framework Hadoop e Spark
Basi di dati schema-less
Ricerca di elementi simili
Analisi di stream di dati
Analisi di link
Insiemi di elementi frequenti
Clustering
Recommendation Systems
Apprendimento automatico su larga scala
Prerequisiti
Prerequisiti: basi di probabilità e statistica, conoscenza di un linguaggio di programmazione.
Modalità di esame: orale.
Materiale di riferimento
Anand Rajaraman and Jeff Ullman, Mining of Massive Datasets, available both as a freely downloadable PDF (http://infolab.stanford.edu/~ullman/mmds.html) and published in hardcopy by Cambridge University Press (ISBN:9781107015357)
Lecture notes
INF/01 - INFORMATICA - CFU: 6
Lezioni: 48 ore
Docente: Malchiodi Dario
Docente/i
Ricevimento:
Su appuntamento
Stanza 5015 del Dipartimento di Informatica