Última actualización: 08/05/2023


Curso Académico: 2023/2024

Aprendizaje por Refuerzo
(19209)
Máster Universitario en Inteligencia Artificial Aplicada (Plan: 475 - Estudio: 378)
Escuela de Ingeniería y Ciencias Básicas


Coordinador/a: FERNANDEZ REBOLLO, FERNANDO

Departamento asignado a la asignatura: Departamento de Informática

Tipo: Optativa
Créditos: 3.0 ECTS

Curso:
Cuatrimestre:




Requisitos (Asignaturas o materias cuyo conocimiento se presupone)
Se recomiendan los conocimientos de la asignatura de Aprendizaje Automático
Descripción de contenidos: Programa
Introducción al Aprendizaje por Refuerzo - Introducción al aprendizaje por refuerzo - Procesos de Decisión de Markov - Políticas y optimalidad: horizonte infinito descontado - Funciones de Valor Programación Dinámica - Resolución de problemas sobre MDP: métodos libres de modelo, basados en modelo y programación dinámica - Algoritmo de Iteración de Política - Algoritmo de Iteración de Valor Aprendizaje por refuerzo directo - Métodos Monte Carlo: y Monte Carlo con arranque exploratorio - Métodos libre de modelo: Q-Learning - Ejemplo de ejecución de Q-Learning - Métodos on-policy vs. off-policy: SARSA - Exploración y explotación: e-greedy y softmax Métodos Basados en el Modelo - Aprendizaje de Modelos - Dyna-Q Representación en Aprendizaje por Refuerzo - Representación del espacio de estados, acciones y Q - Discretización del espacio de estados: métodos uniformes y adaptativos - Métodos aproximados para representar la función Q: Batch Q-Learning Generalización Mediante Aproximación de Funciones - Aproximación mediante redes de neuronas - Deep reinforcement learning Métodos de Búsqueda de la Política - Aproximación de la Política - Métodos actor-crítico - Proximal Policy Optimization (PPO) Otros temas de Aprendizaje por Refuerzo - Aprendizaje por Refuerzo jerárquico - Transferencia de aprendizaje aprendido - Aprendizaje por Refuerzo multi-agente - Aprendizaje por Refuerzo seguro - Aprendizaje por Refuerzo fuera de línea - Aprendizaje por Refuerzo multi-objetivo - Aprendizaje por Refuerzo parcialmente observable Aprendizaje por Refuerzo en el mundo real: - Aplicaciones del aprendizaje por refuerzo - Marcos y software de aprendizaje por refuerzo
Sistema de evaluación
  • Peso porcentual del Examen Final 30
  • Peso porcentual del resto de la evaluación 70

Calendario de Evaluación Continua


Bibliografía básica
  • Richard Sutton and Andrew Barto. Reinforcement Learning: an Introduction. The MIT Press.
Recursos electrónicosRecursos Electrónicos *
(*) El acceso a algunos recursos electrónicos puede estar restringido a los miembros de la comunidad universitaria mediante su validación en campus global. Si esta fuera de la Universidad, establezca una VPN


El programa de la asignatura podría sufrir alguna variación por causa de fuerza mayor debidamente justificada o por eventos académicos comunicados con antelación.