La asignatura se divide en dos grandes bloques: por una parte, imagen y vídeo y, por otra, voz y audio.
En cualquiera de los casos, se presentan en primer lugar las señales y sus características, incluyendo ciertas nociones de los sistemas visual y auditivo. Seguidamente, se presentan las técnicas más habituales de tratamiento de señales específicas para cada caso, ilustrándose su uso en aplicaciones seleccionadas. Por último, se estudian las aproximaciones más modernas, basadas en soluciones de aprendizaje profundo (CNNs y RNNs), que hoy en día constituyen el estado del arte de la tecnología.
El programa de la asignatura se organiza como sigue:
Bloque 1: Tratamiento de señales visuales: imagen y vídeo
=============================================
Tema 1: Introducción a las imágenes y vídeo digital
Tema 2: Fundamentos del procesado de imagen y vídeo
Tema 3: Representación de imágenes: descriptores de bajo nivel
Tema 4: Segmentación de imágenes
Tema 5: Redes Neuronales Convolucionales (CNNs) para clasificación de imágenes
Tema 6: Otras aplicaciones de las CNNs en el análisis visual: detección de objetos, segmentación semántica, generación de imágenes, transferencia de estilos
Bloque 2: Tratamiento de la señal de voz y el audio
=======================================
Tema 7: Fundamentos del audio y la voz digital: generación, percepción y digitalización
Tema 8: Análisis localizado en el tiempo para señales de voz y audio
Tema 9: Descriptores de bajo nivel de voz y audio
Tema 10: Redes Neuronales para el análisis de datos secuenciales: CNNs temporales, Redes Neuronales Recurrentes, Transformadores, aplicaciones en audio/voz