Reinforcement learning
A.A. 2026/2027
Obiettivi formativi
This course introduces the theoretical and algorithmic foundations of Reinforcement Learning, the subfield of Machine Learning studying adaptive agents that take actions and interact with an unknown environment. Reinforcement learning is a powerful paradigm for the study of autonomous AI systems, and has been applied to a wide range of tasks, including self-driving cars, game playing, customer management, and healthcare.
Risultati apprendimento attesi
Upon completion of the course students will be able to:
- formalize problems in terms of Markov Decision Processes,
- understand basic methods of strategic exploration,
- understand algorithms for direct policy optimization,
- run experiments in simulated environments.
These objectives are measured via a combination of two components: the project report and the oral discussion. The final grade is formed by assessing the project report, and then using the oral discussion for fine tuning.
- formalize problems in terms of Markov Decision Processes,
- understand basic methods of strategic exploration,
- understand algorithms for direct policy optimization,
- run experiments in simulated environments.
These objectives are measured via a combination of two components: the project report and the oral discussion. The final grade is formed by assessing the project report, and then using the oral discussion for fine tuning.
Periodo: Terzo quadrimestre
Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi
Corso singolo
Questo insegnamento non può essere seguito come corso singolo. Puoi trovare gli insegnamenti disponibili consultando il catalogo corsi singoli.
Programma e organizzazione didattica
Edizione unica
Responsabile
Periodo
Terzo quadrimestre
Programma
Introduction
Finite horizon
Discounted horizon
Model-free RL
Temporal difference algorithms
Model-based RL
Value Function Approximation
Control using Value Function Approximation
Policy Gradient
Deep RL
Finite horizon
Discounted horizon
Model-free RL
Temporal difference algorithms
Model-based RL
Value Function Approximation
Control using Value Function Approximation
Policy Gradient
Deep RL
Prerequisiti
Elementi di machine learning
Calcolo delle probabilità e statistica
Algebra lineare
Calcolo delle probabilità e statistica
Algebra lineare
Metodi didattici
Lezioni frontali.
Materiale di riferimento
Il riferimento principale sono le dispense fornite dai docenti.
Libro di testo di riferimento: Shie Mannor, Yishay Mansour, and Aviv Tamar. RL: Foundations. Cambridge University Press, 2026
Libro di testo di riferimento: Shie Mannor, Yishay Mansour, and Aviv Tamar. RL: Foundations. Cambridge University Press, 2026
Modalità di verifica dell’apprendimento e criteri di valutazione
Il voto finale (in trentesimi) è ottenuto combinando la valutazione del progetto con il risultato di una prova orale riguardante il programma svolto a lezione.
INF/01 - INFORMATICA - CFU: 6
Lezioni: 40 ore
Docente/i
Ricevimento:
Su appuntamento. Il colloquio si svolgerà online dopo aver contattato il docente per posta elettronica.
Online. In caso di appuntamento di persona, Dipartimento di Informatica, via Celoria 18 Milano, Stanza 7012 (7 piano)