Introducción al Aprendizaje por Refuerzo
- Introducción al aprendizaje por refuerzo
- Procesos de Decisión de Markov
- Políticas y optimalidad: horizonte infinito descontado
- Funciones de Valor
Programación Dinámica
- Resolución de problemas sobre MDP: métodos libres de modelo, basados en modelo y programación dinámica
- Algoritmo de Iteración de Política
- Algoritmo de Iteración de Valor
Aprendizaje por refuerzo directo
- Métodos Monte Carlo: y Monte Carlo con arranque exploratorio
- Métodos libre de modelo: Q-Learning
- Ejemplo de ejecución de Q-Learning
- Métodos on-policy vs. off-policy: SARSA
- Exploración y explotación: e-greedy y softmax
Métodos Basados en el Modelo
- Aprendizaje de Modelos
- Dyna-Q
Representación en Aprendizaje por Refuerzo
- Representación del espacio de estados, acciones y Q
- Discretización del espacio de estados: métodos uniformes y adaptativos
- Métodos aproximados para representar la función Q: Batch Q-Learning
Generalización Mediante Aproximación de Funciones
- Aproximación mediante redes de neuronas
- Deep reinforcement learning
Métodos de Búsqueda de la Política
- Aproximación de la Política
- Métodos actor-crítico
- Proximal Policy Optimization (PPO)
Otros temas de Aprendizaje por Refuerzo
- Aprendizaje por Refuerzo jerárquico
- Transferencia de aprendizaje aprendido
- Aprendizaje por Refuerzo multi-agente
- Aprendizaje por Refuerzo seguro
- Aprendizaje por Refuerzo fuera de línea
- Aprendizaje por Refuerzo multi-objetivo
- Aprendizaje por Refuerzo parcialmente observable
Aprendizaje por Refuerzo en el mundo real:
- Aplicaciones del aprendizaje por refuerzo
- Marcos y software de aprendizaje por refuerzo