Reinforcement learning | Università degli Studi di Milano Statale

A.A. 2026/2027

Crediti massimi

Ore totali

SSD

INF/01

Lingua

Inglese

Corsi di laurea che utilizzano l'insegnamento

Data science for economics and health (Classe LM-data)-immatricolati nell'a.a. 2025/26

Obiettivi formativi

This course introduces the theoretical and algorithmic foundations of Reinforcement Learning, the subfield of Machine Learning studying adaptive agents that take actions and interact with an unknown environment. Reinforcement learning is a powerful paradigm for the study of autonomous AI systems, and has been applied to a wide range of tasks, including self-driving cars, game playing, customer management, and healthcare.

Risultati apprendimento attesi

Upon completion of the course students will be able to:
- formalize problems in terms of Markov Decision Processes,
- understand basic methods of strategic exploration,
- understand algorithms for direct policy optimization,
- run experiments in simulated environments.
These objectives are measured via a combination of two components: the project report and the oral discussion. The final grade is formed by assessing the project report, and then using the oral discussion for fine tuning.

Periodo: Terzo quadrimestre

Orari delle lezioni

Modalità di valutazione: Esame
Giudizio di valutazione: voto verbalizzato in trentesimi

Calendario degli appelli

Corso singolo

Questo insegnamento può essere seguito come corso singolo.

Segui un corso singolo

Programma e organizzazione didattica

Edizione unica

Responsabile

Cesa Bianchi Nicolo' Antonio

Periodo

Terzo quadrimestre

Programma

Programma

Introduction
Finite horizon
Discounted horizon
Model-free RL
Temporal difference algorithms
Model-based RL
Value Function Approximation
Control using Value Function Approximation
Policy Gradient
Deep RL

Prerequisiti

Elementi di machine learning
Calcolo delle probabilità e statistica
Algebra lineare

Metodi didattici

Lezioni frontali.

Materiale di riferimento

Il riferimento principale sono le dispense fornite dai docenti.

Libro di testo di riferimento: Shie Mannor, Yishay Mansour, and Aviv Tamar. RL: Foundations. Cambridge University Press, 2026

Modalità di verifica dell’apprendimento e criteri di valutazione

Il voto finale (in trentesimi) è ottenuto combinando la valutazione del progetto con il risultato di una prova orale riguardante il programma svolto a lezione.

Organizzazione didattica

INF/01 - INFORMATICA - CFU: 6

Lezioni: 40 ore

Docenti: Cesa Bianchi Nicolo' Antonio, Ferrara Alfio, Papini Matteo

Docente/i

Cesa Bianchi Nicolo' Antonio

Sito web

Ricevimento:

Su appuntamento

via Celoria 18. Stanza 7007

Ferrara Alfio

Sito web

Ricevimento:

Su appuntamento. Il colloquio si svolgerà online dopo aver contattato il docente per posta elettronica.

Online. In caso di appuntamento di persona, Dipartimento di Informatica, via Celoria 18 Milano, Stanza 7012 (7 piano)

Papini Matteo