Ficha

Curso Académico: 2025/2026

Tratamiento de audio, video y visión artificial

(16508)

Doble Grado Ciencia e Ingeniería de Datos - Ingeniería en Tecnologías de Telecomunicación (Plan 2020) (Plan: 456 - Estudio: 371)

Coordinador/a: GONZALEZ DIAZ, IVAN

Departamento asignado a la asignatura: Departamento de Teoría de la Señal y Comunicaciones

Tipo: Obligatoria

Créditos: 6.0 ECTS

Curso: 5º

Cuatrimestre: 1º

Requisitos (Asignaturas o materias cuyo conocimiento se presupone)

Redes Neuronales Señales y Sistemas Aprendizaje Automático I y II

Objetivos

Los estudiantes deberán alcanzar los siguientes objetivos: 1) Conocer las señales digitales de imagen, audio, voz y vídeo, así como sus principales parámetros y el proceso de digitalización. 2) Conocer las técnicas más importantes del procesado de imagen, vídeo y audio, así como las tareas habituales de la visión y audio por ordenador . 3) Aplicar técnicas de aprendizaje automático y aprendizaje profundo vistas al análisis de contenidos audiovisuales: imágenes, vídeo, audio, voz. 4) Desarrollar aplicaciones inteligentes que impliquen el análisis automático de contenidos audiovisuales.

Descripción de contenidos: Programa

La asignatura se divide en dos grandes bloques: por una parte, imagen y vídeo y, por otra, voz y audio. En cualquiera de los casos, se presentan en primer lugar las señales y sus características, incluyendo ciertas nociones de los sistemas visual y auditivo. Seguidamente, se presentan las técnicas más habituales de tratamiento de señales específicas para cada caso, ilustrándose su uso en aplicaciones seleccionadas. Por último, se estudian las aproximaciones más modernas, basadas en soluciones de aprendizaje profundo (CNNs y RNNs), que hoy en día constituyen el estado del arte de la tecnología. El programa de la asignatura se organiza como sigue: Bloque 1: Tratamiento de señales visuales: imagen y vídeo ============================================= Tema 1: Introducción a las imágenes y vídeo digital Tema 2: Fundamentos del procesado de imagen y vídeo Tema 3: Representación de imágenes: descriptores de bajo nivel Tema 4: Segmentación de imágenes Tema 5: Redes Neuronales Convolucionales (CNNs) para clasificación de imágenes Tema 6: Otras aplicaciones de las CNNs en el análisis visual: detección de objetos, segmentación semántica, generación de imágenes, correspondencia entre imágenes, transferencia de estilos Bloque 2: Tratamiento de la señal de voz y el audio ======================================= Tema 7: Fundamentos del audio y la voz digital: generación, percepción y digitalización Tema 8: Análisis localizado en el tiempo para señales de voz y audio Tema 9: Descriptores de bajo nivel de voz y audio Tema 10: Redes Neuronales para el análisis de datos secuenciales: CNNs temporales, Redes Neuronales Recurrentes, Transformadores, Modelos en espacio de estados(SSM). Aplicaciones de los modelos sobre las señales de audio/voz.

Actividades formativas, metodología a utilizar y régimen de tutorías

Se proponen dos tipos de actividades formativas: clases de teoría, y prácticas de laboratorio. CLASES DE TEORÍA Las clases de teoría serán lecciones magistrales con uso de transparencias u otros medios audiovisuales para ilustrar determinados conceptos. Mediante estas sesiones el alumno adquirirá los contenidos básicos de la asignatura. Es importante destacar que estas clases requerirán iniciativa y trabajo personal y en grupo por parte del alumno (habrá conceptos que deberán estudiar personalmente a partir de algunas indicaciones, casos particulares de tendrán que desarrollar, etc.) PRÁCTICAS Es una asignatura de elevado componente práctico, en lo que los alumnos asistirán regularmente a sesiones de laboratorio. En ellas, los conceptos adquiridos en las clases de teoría se pondrán en práctica utilizando el lenguaje de programación python, y bibliotecas software para el análisis de imagen y la visión artificial (scikit-image, PIL, OpenCV), el procesado de audio (scikit-sound), el aprendizaje automático (scikit-learn) y el aprendizaje profundo (pytorch). En los laboratorios se dispone de máquinas equipadas con GPUs de altas prestaciones y se utilizarán también sistemas de computación distribuidos y gratuitos como Google Colab.

Sistema de evaluación

Peso porcentual del Examen/Prueba Final 40
Peso porcentual del resto de la evaluación 60

Calendario de Evaluación Continua

EXAMEN FINAL. En el que se valorarán de forma global los conocimientos, destrezas y capacidades adquiridas a lo largo del curso. Tendrá un peso de un 40% sobre la nota.
 
EVALUACIÓN CONTINUA. En ella se evaluarán los ejercicios y prácticas realizadas en los talleres a lo largo del curso. Para ello se emplearán indistintamente tests o exámenes cortos, y evaluaciones a través de competiciones o retos.  Tendrá un peso de un 60% de la nota.

Convocatoria extraordinaria: normativa

Bibliografía básica

Ian Goodfellow, Yoshoua Bengio, and Aaron Courville. Deep Learning. The MIT Press. 2016
Ken C. Pohlmann. Principles of Digital Audio (5th Edition). McGraw-Hill/TAB Electronics. 2005
Ken C. Pohlmann. Principles of Digital Audio (5th Edition). McGraw-Hill/TAB Electronics. 2005
N. Morgan and B. Gold. Speech and Audio Signal Processing: Processing and Perception of Speech and Music. John Wiley & Sons, Inc. New York, NY, USA. 1999
Rafael C. González and Richard E. Woods . Digital Image Processing (4th Edition). Pearson. 2018

Bibliografía complementaria

D. O'Shaughnessy. Automatic speech recognition: History, methods and challenges. Pattern Recognition, 41 (10) pp. 2965-2979. 2008
David A. Forsyth and Jean Ponce. Computer Vision: A Modern Approach (2nd Edition). Pearson . 2012
S. Huang, A. Acero, H.W. Hon. Spoken Language Processing: A Guide to Theory, Algorithms and System Development. Prentice Hall. 2001
Wilhelm Burger and Mark J. Burge. Principles of Digital Image Processing: Fundamental Techniques. Springer-Verlag. 2009
Wilhelm Burger and Mark J. Burge. Principles of Digital Image Processing: Core Techniques. Springer-Verlag. 2009

El programa de la asignatura podría sufrir alguna variación por causa de fuerza mayor debidamente justificada o por eventos académicos comunicados con antelación.