Statistica per big data economico/aziendali
A.A. 2020/2021
Obiettivi formativi
Il corso si propone di introdurre ed illustrare specifiche metodologie statistiche, informatiche e di machine learning per l'analisi dei Big Data nelle applicazioni economiche, aziendali e finanziarie. Tutto il corso verterà principalmente sul linguaggio di programmazione Python che di gran lunga è il più usato nelle applicazioni Big Data, ma si dedicheranno alcune parti al linguaggio R e ad altri linguaggi più classici come Java. Sul lato statistico si proporranno temi di statistical learning supervisionato e non supervisionato con qualche accenno alla statistica bayesiana.
Risultati apprendimento attesi
Al termine del corso, lo studente avrà acquisito adeguate competenze statistiche e di programmazione che gli consentiranno di padroneggiare gli strumenti necessari per l'analisi dei Big Data e l'estrapolazione delle informazioni di interesse in ambito economico, aziendale e finanziario.
Periodo: Terzo trimestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.
Programma e organizzazione didattica
Edizione unica
Periodo
Terzo trimestre
Metodi di insegnamento.
Le lezioni si terranno sulla piattaforma Microsoft Teams sia in modalità sincrona (ovvero live) che asincrona (ovvero registrata).
Programma e materiale di riferimento.
Il programma e il materiale di riferimento non cambieranno nel caso in cui le lezioni tornino ad essere tenute "di persona".
Verifica dei criteri di apprendimento e valutazione.
L'esame si svolgerà con un test a risposta multipla in caso di ritorno alla normalità dopo l'emergenza sanitaria. Altrimenti si svolgerà come una prova orale.
L'esame, in particolare, sarà finalizzato a:
- assicurare il raggiungimento degli obiettivi in termini di conoscenza e comprensione;
- accertare la capacità di applicare le conoscenze e la comprensione attraverso la discussione di casi specifici in cui verranno applicati gli argomenti del corso;
- verificare l'autonomia dello studente nello sviluppo delle proprie attitudini sugli argomenti del corso.
Le lezioni si terranno sulla piattaforma Microsoft Teams sia in modalità sincrona (ovvero live) che asincrona (ovvero registrata).
Programma e materiale di riferimento.
Il programma e il materiale di riferimento non cambieranno nel caso in cui le lezioni tornino ad essere tenute "di persona".
Verifica dei criteri di apprendimento e valutazione.
L'esame si svolgerà con un test a risposta multipla in caso di ritorno alla normalità dopo l'emergenza sanitaria. Altrimenti si svolgerà come una prova orale.
L'esame, in particolare, sarà finalizzato a:
- assicurare il raggiungimento degli obiettivi in termini di conoscenza e comprensione;
- accertare la capacità di applicare le conoscenze e la comprensione attraverso la discussione di casi specifici in cui verranno applicati gli argomenti del corso;
- verificare l'autonomia dello studente nello sviluppo delle proprie attitudini sugli argomenti del corso.
Programma
PRIMA PARTE :
1) TECNICHE DI DATA MINING: modelli supervisionati
1.1 Modello di regressione lineare multipla
1.2 Modelli lineari generalizzati (logit, probit e tobit)
2) TECNICHE DI DATA MINING: modelli non supervisionati
2.1 cluster analysis
2.2 analisi delle componenti principali
2.3 cross-validation
2.4 analisi testuale (text mining)
SECONDA PARTE :
1) Introduzione alla programmazione in R e Python per le applicazioni statistiche ed economiche
2) Introduzione al cloud computing
3) Introduzione al web scraping
4) Introduzione al database relazionale e non relazionale
6) Big data analytics per l'incremento del valore aziendale
1) TECNICHE DI DATA MINING: modelli supervisionati
1.1 Modello di regressione lineare multipla
1.2 Modelli lineari generalizzati (logit, probit e tobit)
2) TECNICHE DI DATA MINING: modelli non supervisionati
2.1 cluster analysis
2.2 analisi delle componenti principali
2.3 cross-validation
2.4 analisi testuale (text mining)
SECONDA PARTE :
1) Introduzione alla programmazione in R e Python per le applicazioni statistiche ed economiche
2) Introduzione al cloud computing
3) Introduzione al web scraping
4) Introduzione al database relazionale e non relazionale
6) Big data analytics per l'incremento del valore aziendale
Prerequisiti
Conoscenza delle tecniche statistiche e matematiche di base. La conoscenza di alcune tecniche di programmazione è utile ma non essenziale.
Metodi didattici
Le lezioni saranno svolte con il coinvolgimento attivo degli studenti, soprattutto nella parte di programmazione. Saranno spesso invitati a seguire attivamente (cioè anche sui loro portatili personali) passi di programmi informatici proposti in aula assieme al docente, in un approccio "what-if". Si lavorerà anche in gruppi per condividere l'apprendimento.
Materiale di riferimento
James, Witten, Hastie, Tibshirani (2013). Introduction to Statistical Learning, Springer
Sosinsky (2010). Cloud Computing Bible, Wiley
Raschka, Mirjalili (2013). Python Machine Learning
Sosinsky (2010). Cloud Computing Bible, Wiley
Raschka, Mirjalili (2013). Python Machine Learning
Modalità di verifica dell’apprendimento e criteri di valutazione
L'esame consisterà in un test con domande che prevedono risposte multiple. Durante il corso si proporranno alcuni assignment sia in aula che da consegnare a breve termine che concorreranno al punteggio finale.
SECS-S/03 - STATISTICA ECONOMICA - CFU: 6
Lezioni: 40 ore
Docente:
Manzi Giancarlo