Ficha

English version

Curso Académico: 2025/2026

Aprendizaje por Refuerzo

(19209)

Máster Universitario en Inteligencia Artificial Aplicada (Plan: 475 - Estudio: 378)

Escuela de Ingeniería y Ciencias Básicas

Coordinador/a: FERNANDEZ REBOLLO, FERNANDO

Departamento asignado a la asignatura: Departamento de Informática

Tipo: Optativa

Créditos: 3.0 ECTS

Curso: 1º

Cuatrimestre: 1º

Requisitos (Asignaturas o materias cuyo conocimiento se presupone)

Se recomiendan los conocimientos de la asignatura de Aprendizaje Automático

Objetivos

El objetivo de este curso es entender y ser capaz de aplicar los principales algoritmos de Aprendizaje por Refuerzo en problemas realistas.

Descripción de contenidos: Programa

Introducción al Aprendizaje por Refuerzo - Introducción al aprendizaje por refuerzo - Procesos de Decisión de Markov - Políticas y optimalidad: horizonte infinito descontado - Funciones de Valor Programación Dinámica - Resolución de problemas sobre MDP: métodos libres de modelo, basados en modelo y programación dinámica - Algoritmo de Iteración de Política - Algoritmo de Iteración de Valor Aprendizaje por refuerzo directo - Métodos Monte Carlo: y Monte Carlo con arranque exploratorio - Métodos libre de modelo: Q-Learning - Ejemplo de ejecución de Q-Learning - Métodos on-policy vs. off-policy: SARSA - Exploración y explotación: e-greedy y softmax Métodos Basados en el Modelo - Aprendizaje de Modelos - Dyna-Q Representación en Aprendizaje por Refuerzo - Representación del espacio de estados, acciones y Q - Discretización del espacio de estados: métodos uniformes y adaptativos - Métodos aproximados para representar la función Q: Batch Q-Learning Generalización Mediante Aproximación de Funciones - Aproximación mediante redes de neuronas - Deep reinforcement learning Métodos de Búsqueda de la Política - Aproximación de la Política - Métodos actor-crítico - Proximal Policy Optimization (PPO) Otros temas de Aprendizaje por Refuerzo - Aprendizaje por Refuerzo jerárquico - Transferencia de aprendizaje aprendido - Aprendizaje por Refuerzo multi-agente - Aprendizaje por Refuerzo seguro - Aprendizaje por Refuerzo fuera de línea - Aprendizaje por Refuerzo multi-objetivo - Aprendizaje por Refuerzo parcialmente observable Aprendizaje por Refuerzo en el mundo real: - Aplicaciones del aprendizaje por refuerzo - Marcos y software de aprendizaje por refuerzo

Actividades formativas, metodología a utilizar y régimen de tutorías

Actividades formativas: -------------------------- AF1 - Clase teórica AF3 - Clases teórico-prácticas AF5 - Tutorías individuales y grupales AF6 - Trabajo en grupo AF7 - Trabajo individual del estudiante Metodología docente: ------------------------ MD1: Exposiciones en clase del profesor con soporte de medios informáticos y audiovisuales, en las que se desarrollan los conceptos principales de la materia y se proporciona la bibliografía para complementar el aprendizaje de los alumnos. MD2: Lectura crítica de textos recomendados por el profesor de la asignatura: Artículos de prensa, informes, manuales y/o artículos académicos, bien para su posterior discusión en clase, bien para ampliar y consolidar los conocimientos de la asignatura. MD3: Resolución de casos prácticos, problemas, etc. planteados por el profesor de manera individual o en grupo MD4 Exposición y discusión en clase, bajo la moderación del profesor de temas relacionados con el contenido de la materia, así como de casos prácticos MD5: Elaboración de trabajos e informes de manera individual o en grupo

Sistema de evaluación

Peso porcentual del Examen/Prueba Final 30
Peso porcentual del resto de la evaluación 70

Calendario de Evaluación Continua

La evaluación de esta asignatura se basa en tres elementos principales:
- Examen final: 30% de la calificación final. El examen se compondrá de una serie de preguntas teóricas de respuesta corta y/o tipo test
- Trabajos del curso: 60% de la calificación final. Desarrollo de un proyecto práctico a lo largo del curso a realizar en grupo
- Participación en clase: 10 % de la calificación final. Se centra principalmente en la exposición de un tema de la asignatura
La calificación final se obtendrá como una suma ponderada de las calificaciones de cada apartado. No hay nota mínima en ningún apartado. 

La evaluación extraordinaria se realizará de forma equivalente a la ordinaria.

Bibliografía básica

Richard Sutton and Andrew Barto. Reinforcement Learning: an Introduction. The MIT Press.

Recursos Electrónicos *

DeepMind · MuJoCo : https://mujoco.org/
Open AI · Open AI Proximal Policy Optimization : https://openai.com/research/openai-baselines-ppo
Open AI · Gymnasium : https://gymnasium.farama.org/

(*) El acceso a algunos recursos electrónicos puede estar restringido a los miembros de la comunidad universitaria mediante su validación en campus global. Si esta fuera de la Universidad, establezca una VPN

El programa de la asignatura podría sufrir alguna variación por causa de fuerza mayor debidamente justificada o por eventos académicos comunicados con antelación.