El problema moderno de la sobrecarga de información provocado por la disponibilidad de cantidades inabarcables de información a través de internet hace que sean necesarios sistemas que nos permitan encontrar la información que buscamos y filtrarla o personalizarla en función de nuestras necesidades. Para ello es fundamental poder indexar automáticamente contenidos no sólo textuales sino también de audio (música, voz, etc.), imagen o vídeo.
El objetivo de esta asignatura es introducir las técnicas básicas de tratamiento de voz, audio, imagen y vídeo, con una marcada orientación práctica; para ello se apoyará en una metodología de aprendizaje basado en proyectos. En particular, se presentarán, tanto en el aula como el laboratorio, los métodos necesarios para llevar a cabo dos proyectos, uno en el ámbito de tratamiento de imagen y otro en el ámbito de tratamiento de audio:
- Imagen: reconocimiento de caras, construcción de imágenes panorámicas, detección de vehículos, etc.
- Audio: sistemas de clustering o clasificación de audio por géneros, clasificación de electrocardiogramas, clasificación de emociones, etc.
Ambos proyectos se plantearán en la plataforma Kaggle, a modo de ¿challenges¿, de modo que los estudiantes puedan competir entre sí.
La asignatura se cerrerá con una lección introductoria a las redes neuronales y sus aplicaciones en tratamiento de voz, audio, imagen y vídeo, que tendrá su continuación en dos asignaturas optativas del segundo cuatrimestre:
- Aprendizaje profundo para el análisis de imágenes
- Procesamiento del lenguaje natural
Programa de la asignatura
1. Introducción al análisis de datos audiovisuales (audio & visual analytics)
2. Datos audiovisuales: representación digital
3. Tratamiento digital de imagen y vídeo
3.1. Operaciones punto a punto y filtros
3.2. Segmentación de imágenes y procesado morfológico
3.3. Extracción de características
3.4. Proyecto integrador (por ejemplo: reconocimiento de caras, construcción de imágenes panorámicas, detección de vehículos, etc.)
4. Tratamiento de voz y audio
4.1. Producción de habla y percepción de audio
4.2. Análisis localizado en el tiempo. ¿Cómo funciona Shazam?
4.3. Extracción de características
4.4. Proyecto integrador: (p. ej., clustering o clasificación de audio, clasificación de electrocardiogramas, clasificación de emociones, etc.)
5. Introducción a las Redes Neuronales para análisis de voz, audio, imagen y vídeo