Reinforcement learning | Università degli Studi di Milano Statale

A.A. 2023/2024

Crediti massimi

Ore totali

SSD

INF/01

Lingua

Inglese

Corsi di laurea che utilizzano l'insegnamento

Data science for economics (Classe LM-data)-enrolled from 2022/23 academic year

Obiettivi formativi

This course introduces the theoretical and algorithmic foundations of Reinforcement Learning, the subfield of Machine Learning studying adaptive agents that take actions and interact with an unknown environment. Reinforcement learning is a powerful paradigm for the study of autonomous AI systems, and has been applied to a wide range of tasks, including self-driving cars, game playing, customer management, and healthcare.

Risultati apprendimento attesi

Upon completion of the course students will be able to:
- formalize problems in terms of Markov Decision Processes,
- understand basic methods of strategic exploration,
- understand algorithms for direct policy optimization,
- run experiments in simulated environments.
These objectives are measured via a combination of two components: the project report and the oral discussion. The final grade is formed by assessing the project report, and then using the oral discussion for fine tuning.

Periodo: Secondo trimestre

Orari delle lezioni

Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi

Calendario degli appelli

Corso singolo

Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.

Cerca un corso singolo

Programma e organizzazione didattica

Edizione unica

Responsabile

Cesa Bianchi Nicolo' Antonio

Periodo

Secondo trimestre

Programma

Programma

Questo insegnamento introduce le basi teoriche e algoritmiche del Reinforcement Learning, il sotto campo del Machine Learning che studia gli agenti adattivi che intraprendono azioni e interagiscono con un ambiente sconosciuto. L'apprendimento per rinforzo è un potente paradigma per lo studio dei sistemi di intelligenza artificiale autonomi ed è stato applicato a un'ampia gamma di attività, tra cui auto a guida autonoma, giochi, gestione dei clienti e assistenza sanitaria.
Introduzione
Cos'è l'apprendimento per rinforzo
Deterministic decision processes
Markov decision processes
Criteri di valutazione: orizzonte finito, orizzonte infinito, orizzonte scontato
Markov policies e loro proprietà
Orizzonte finito
Funzione stato-valore
Funzione valore-azione
Equazioni di ottimalità di Bellman per orizzonte finito
Orizzonte scontato
Equazioni di ottimalità di Bellman per orizzonte scontato
Value iteration
Policy iteration
Interpretazione basata su programmazione lineare
Apprendimento per rinforzo Model-based
Apprendimento per rinforzo Model-free
Q-learning
SARSA
Temporal difference algorithms
TD(0)
TD(λ)
Equivalenza tra forward and backward view
Approssimazione di funzione valore
Metodi Policy gradient
Sviluppo di un progetto di apprendimento per rinforzo

Prerequisiti

Conoscenze di metodi statistici e fondamenti di machine learning. Conoscenza della programmazione in Python.

Metodi didattici

L'insegnamento è erogato in forma di lezioni frontali con ampio ricorso a esempi e materiali di supporto in forma di notebook Python. E' previsto l'uso di slide e materiali didattici che saranno progressivamente resi disponibili sul sito web dell'insegnamento in piattaforma Ariel.
La frequenza, per quanto non obbligatoria, è fortemente consigliata.

Materiale di riferimento

Appunti, notebook e materiali forniti dai docenti e pubblicati sul sito Ariel dell'insegnamento.

Modalità di verifica dell’apprendimento e criteri di valutazione

Al termine del corso gli studenti saranno in grado di:
- formalizzare i problemi in termini di Markov decision processes;
- descrivere i criteri di prestazione di base per gli MDP;
- comprendere i principali algoritmi per RL model-based e model-free;
- comprendere i principali approcci di RL in spazi con grandi quantità di stati;
- eseguire esperimenti in ambienti simulati.
Questi obiettivi sono misurati attraverso una combinazione di due componenti: la redazione di un progetto e la discussione orale. Il voto finale è formato valutando la relazione associata al progetto e quindi utilizzando la discussione orale per la messa a punto della valutazione conclusiva in 30 esimi.

Organizzazione didattica

INF/01 - INFORMATICA - CFU: 6

Lezioni: 40 ore

Docenti: Cesa Bianchi Nicolo' Antonio, Ferrara Alfio

Siti didattici

Reinforcement learning (a.a. 2023/24)

Docente/i

Cesa Bianchi Nicolo' Antonio

Sito web

Ricevimento:

Su appuntamento

via Celoria 18. Stanza 7007

Ferrara Alfio

Sito web

Ricevimento:

Su appuntamento. Il colloquio si svolgerà online dopo aver contattato il docente per posta elettronica.

Online. In caso di appuntamento di persona, Dipartimento di Informatica, via Celoria 18 Milano, Stanza 7012 (7 piano)