Última actualización: 20/05/2024


Curso Académico: 2024/2025

Aprendizaje por Refuerzo
(19209)
Máster Universitario en Inteligencia Artificial Aplicada (Plan: 475 - Estudio: 378)
Escuela de Ingeniería y Ciencias Básicas


Coordinador/a: FERNANDEZ REBOLLO, FERNANDO

Departamento asignado a la asignatura: Departamento de Informática

Tipo: Optativa
Créditos: 3.0 ECTS

Curso:
Cuatrimestre:




Requisitos (Asignaturas o materias cuyo conocimiento se presupone)
Se recomiendan los conocimientos de la asignatura de Aprendizaje Automático
Descripción de contenidos: Programa
Introducción al Aprendizaje por Refuerzo - Introducción al aprendizaje por refuerzo - Procesos de Decisión de Markov - Políticas y optimalidad: horizonte infinito descontado - Funciones de Valor Programación Dinámica - Resolución de problemas sobre MDP: métodos libres de modelo, basados en modelo y programación dinámica - Algoritmo de Iteración de Política - Algoritmo de Iteración de Valor Aprendizaje por refuerzo directo - Métodos Monte Carlo: y Monte Carlo con arranque exploratorio - Métodos libre de modelo: Q-Learning - Ejemplo de ejecución de Q-Learning - Métodos on-policy vs. off-policy: SARSA - Exploración y explotación: e-greedy y softmax Métodos Basados en el Modelo - Aprendizaje de Modelos - Dyna-Q Representación en Aprendizaje por Refuerzo - Representación del espacio de estados, acciones y Q - Discretización del espacio de estados: métodos uniformes y adaptativos - Métodos aproximados para representar la función Q: Batch Q-Learning Generalización Mediante Aproximación de Funciones - Aproximación mediante redes de neuronas - Deep reinforcement learning Métodos de Búsqueda de la Política - Aproximación de la Política - Métodos actor-crítico - Proximal Policy Optimization (PPO) Otros temas de Aprendizaje por Refuerzo - Aprendizaje por Refuerzo jerárquico - Transferencia de aprendizaje aprendido - Aprendizaje por Refuerzo multi-agente - Aprendizaje por Refuerzo seguro - Aprendizaje por Refuerzo fuera de línea - Aprendizaje por Refuerzo multi-objetivo - Aprendizaje por Refuerzo parcialmente observable Aprendizaje por Refuerzo en el mundo real: - Aplicaciones del aprendizaje por refuerzo - Marcos y software de aprendizaje por refuerzo
Actividades formativas, metodología a utilizar y régimen de tutorías
Actividades formativas: -------------------------- AF1 - Clase teórica AF3 - Clases teórico-prácticas AF5 - Tutorías individuales y grupales AF6 - Trabajo en grupo AF7 - Trabajo individual del estudiante Metodología docente: ------------------------ MD1: Exposiciones en clase del profesor con soporte de medios informáticos y audiovisuales, en las que se desarrollan los conceptos principales de la materia y se proporciona la bibliografía para complementar el aprendizaje de los alumnos. MD2: Lectura crítica de textos recomendados por el profesor de la asignatura: Artículos de prensa, informes, manuales y/o artículos académicos, bien para su posterior discusión en clase, bien para ampliar y consolidar los conocimientos de la asignatura. MD3: Resolución de casos prácticos, problemas, etc. planteados por el profesor de manera individual o en grupo MD4 Exposición y discusión en clase, bajo la moderación del profesor de temas relacionados con el contenido de la materia, así como de casos prácticos MD5: Elaboración de trabajos e informes de manera individual o en grupo
Sistema de evaluación
  • Peso porcentual del Examen Final 30
  • Peso porcentual del resto de la evaluación 70

Calendario de Evaluación Continua


Bibliografía básica
  • Richard Sutton and Andrew Barto. Reinforcement Learning: an Introduction. The MIT Press.
Recursos electrónicosRecursos Electrónicos *
(*) El acceso a algunos recursos electrónicos puede estar restringido a los miembros de la comunidad universitaria mediante su validación en campus global. Si esta fuera de la Universidad, establezca una VPN


El programa de la asignatura podría sufrir alguna variación por causa de fuerza mayor debidamente justificada o por eventos académicos comunicados con antelación.