Última actualización: 18/05/2023


Curso Académico: 2023/2024

Tratamiento de audio, video y visión artificial
(16508)
Doble Grado Ciencia e Ingeniería de Datos - Ingeniería en Tecnologías de Telecomunicación (Plan: 456 - Estudio: 371)


Coordinador/a: GONZALEZ DIAZ, IVAN

Departamento asignado a la asignatura: Departamento de Teoría de la Señal y Comunicaciones

Tipo: Obligatoria
Créditos: 6.0 ECTS

Curso:
Cuatrimestre:




Requisitos (Asignaturas o materias cuyo conocimiento se presupone)
Redes Neuronales
Objetivos
CB1: Que los estudiantes hayan demostrado poseer y comprender conocimientos en un área de estudio que parte de la base de la educación secundaria general, y se suele encontrar a unnivel que, si bien se apoya en libros de texto avanzados, incluye también algunos aspectos que implican conocimientos procedentes de la vanguardia de su campo de estudio. CB2: Que los estudiantes sepan aplicar sus conocimientos a su trabajo o vocación de una forma profesional y posean las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de su área de estudio CB5: Que los estudiantes hayan desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía. CE1: Capacidad para la resolución de los problemas matemáticos que puedan plantearse en la ingeniería y ciencia de datos. Aptitud para aplicar los conocimientos sobre: álgebra; geometría; cálculo diferencial e integral; métodos numéricos; algorítmica numérica; estadística y optimización. CE14: Capacidad para diseñar soluciones basadas en redes neuronales artificiales. CE16: Capacidad para diseñar soluciones de tratamiento de audio, vídeo y visión por computador. CG1: Conocimientos y habilidades adecuados para analizar y sintetizar problemas básicos relacionados con la ingeniería y la ciencia de datos, resolverlos y comunicarlos de forma eficiente. CG4: Capacidad para la resolución de los problemas tecnológicos, informáticos, matemáticos y estadísticos que puedan plantearse en la ingeniería y ciencia de datos. CG5: Capacidad para resolver problemas formulados matemáticamente aplicados a diversas materias, empleando algoritmos numéricos y técnicas computacionales. CG6: Capacidad para sintetizar las conclusiones obtenidas de los análisis realizados y presentarlas de manera clara y convincente tanto por escrito como oralmente. CT1: Capacidad de comunicar los conocimientos oralmente y por escrito, ante un público tanto especializado como no especializado. RA1 Haber adquirido conocimientos avanzados y demostrado una comprensión de los aspectos teóricos y prácticos y de la metodología de trabajo en el campo de la ciencias e ingeniería de datos con una profundidad que llegue hasta la vanguardia del conocimiento RA2 Poder, mediante argumentos o procedimientos elaborados y sustentados por ellos mismos, aplicar sus conocimientos, la comprensión de estos y sus capacidades de resolución de problemas en ámbitos laborales complejos o profesionales y especializados que requieren el uso de ideas creativas e innovadoras RA6 Ser capaces de identificar sus propias necesidades formativas en su campo de estudio y entorno laboral o profesional y de organizar su propio aprendizaje con un alto grado de autonomía en todo tipo de contextos (estructurados o no).
Competencias y resultados del aprendizaje
Descripción de contenidos: Programa
El objetivo de esta asignatura es proporcionar una introducción a técnicas de tratamiento de voz, audio, imagen y vídeo, siguiendo para ello una orientación eminentemente práctica, alternándose las sesiones de teoría con sesiones de prácticas en el laboratorio; de este modo, el alumno estará capacitado para realizar un mini proyecto de cierta entidad sobre el que será evaluado. La asignatura se divide en dos grandes bloques: por una parte, imagen y vídeo y, por otra, voz y audio. En cualquiera de los casos, se presentan en primer lugar las señales y sus características, incluyendo ciertas nociones de los sistemas visual y auditivo. Seguidamente, se presentan las técnicas básicas de tratamiento de señales específicas para cada caso, ilustrándose su uso en aplicaciones seleccionadas. Después se introducen las redes neuronales convolucionales y sus aplicaciones en ambos ámbitos. Fundamentos del tratamiento de imagen y video Una primera aproximación al problema de clasificación de imágenes Redes Neuronales Convolucionales (CNNs) - Breve revisión de las Redes Neuronales y las Redes Neuronales Profundas - Fundamentos - Aplicaciones en visión artificial Redes Neuronales Recurrentes (RNNs) - Fundamentos - Aplicaciones en visión artificial Fundamentos del tratamiento de voz y audio Panorámica de las tecnologías de voz y audio Tecnologías de voz y audio basadas en aprendizaje profundo
Actividades formativas, metodología a utilizar y régimen de tutorías
AF1: CLASES TEÓRICO-PRÁCTICAS. En ellas se presentarán los conocimientos que deben adquirir los alumnos. Estos recibirán las notas de clase y tendrán textos básicos de referencia para facilitar el seguimiento de las clases y el desarrollo del trabajo posterior. Se resolverán ejercicios, prácticas problemas por parte del alumno y se realizarán talleres y prueba de evaluación para adquirir las capacidades necesarias. AF2:  Actualizado a alegación AF3: TRABAJO INDIVIDUAL O EN GRUPO DEL ESTUDIANTE. AF8: TALLERES Y LABORATORIOS. AF9: EXAMEN FINAL. En el que se valorarán de forma global los conocimientos, destrezas y capacidades adquiridas a lo largo del curso. MD1: CLASE TEORÍA. Exposiciones en clase del profesor con soporte de medios informáticos y audiovisuales, en las que se desarrollan los conceptos principales de la materia y se proporcionan los materiales y la bibliografía para complementar el aprendizaje de los alumnos. MD2: PRÁCTICAS. Resolución de casos prácticos, problemas, etc. planteados por el profesor de manera individual o en grupo. MD3: TUTORÍAS. Asistencia individualizada (tutorías individuales) o en grupo (tutorías colectivas) a los estudiantes por parte del profesor. MD6: PRÁCTICAS DE LABORATORIO. Docencia experimental en laboratorios bajo la supervisión de un tutor.
Sistema de evaluación
  • Peso porcentual del Examen Final 60
  • Peso porcentual del resto de la evaluación 40

Bibliografía básica
  • Ken C. Pohlmann. Principles of Digital Audio (5th Edition). McGraw-Hill/TAB Electronics. 2005
  • N. Morgan and B. Gold. Speech and Audio Signal Processing: Processing and Perception of Speech and Music. John Wiley & Sons, Inc. New York, NY, USA. 1999
  • Rafael C. González and Richard E. Woods . Digital Image Processing (4th Edition). Pearson. 2018
Bibliografía complementaria
  • D. O'Shaughnessy. Automatic speech recognition: History, methods and challenges. Pattern Recognition, 41 (10) pp. 2965-2979. 2008
  • David A. Forsyth and Jean Ponce. Computer Vision: A Modern Approach (2nd Edition). Pearson . 2012
  • Ian Goodfellow and Yoshua Bengio and Aaron Courville. Deep Learning. MIT Press. 2016
  • S. Huang, A. Acero, H.W. Hon. Spoken Language Processing: A Guide to Theory, Algorithms and System Development. Prentice Hall. 2001
  • Wilhelm Burger and Mark J. Burge. Principles of Digital Image Processing: Fundamental Techniques. Springer-Verlag. 2009
  • Wilhelm Burger and Mark J. Burge. Principles of Digital Image Processing: Core Techniques. Springer-Verlag. 2009

El programa de la asignatura podría sufrir alguna variación por causa de fuerza mayor debidamente justificada o por eventos académicos comunicados con antelación.