Diseño Electrónico: Curso Procesamiento digital de señales de audio

https://eva.fing.edu.uy/course/view.php?id=710

General
Procesamiento digital de señales de audio

Descripción y objetivos

El curso busca profundizar la formación de los estudiantes en procesamiento de señales. Al finalizar la unidad curricular el estudiante comprenderá los fundamentos del procesamiento digital de señales de audio, tales como el análisis de tiempo corto, el compromiso tiempo-frecuencia, el modelo fuente-filtro, o la deconvolución. También tendrá experiencia en técnicas clásicas del área, como la Codificación por Predicción Lineal (LPC) ó el análisis Cepstral. Será capaz de programar algoritmos para implementar las técnicas estudiadas y resolver problemas recurrentes, como la detección de frecuencia fundamental y la estimación de envolvente espectral. Esta formación le permitirá abordar proyectos en los que intervengan señales de audio (como la voz hablada, la música o los sonidos del entorno), con aplicaciones en telecomunicaciones, producción audiovisual, o bioacústica, entre otras.
Metodología
El dictado del curso está organizado en dos clases semanales de dos horas, alternando clases teóricas y clases prácticas. En las clases teóricas se presentarán los temas de forma expositiva, conectando los contenidos con ejemplos prácticos y problemas reales, así como habilitando espacios activos para la reflexión e intercambio. En las clases prácticas los estudiantes desarrollarán habilidades prácticas relativas a la programación y aplicarán técnicas de procesamiento de audio sobre señales reales. Durante las tres últimas semanas de clase los estudiantes trabajarán en grupos de a dos, resolviendo un problema de aplicación, que integre los conocimientos adquiridos durante el curso.
Evaluación
El proceso de evaluación incluye la realización de trabajo individual de resolución de ejercicios, distribuidos en 4 entregables a lo largo del curso. Además se deberá realizar un proyecto final de curso en grupos de dos estudiantes. Los ejercicios entregables corresponden al 50% del puntaje total de la unidad curricular, mientras que el proyecto final corresponde al restante 50%. Para aprobar la unidad curricular el estudiante deberá cumplir con la entrega de todos los entregables y deberá alcanzar un 60% del puntaje total del curso.
Temario
1. Introducción al procesamiento de audio: objetivos, aplicaciones, conceptos básicos de señales de audio (e.g. digitalización, densidad espectral de potencia, autocorrelación, dithering, etc).
2. Señales de voz y audio: aparato fonador, modelo de producción de voz, modelo fuente filtros, modelos tonal+transitorio+ruido.
3. Percepción auditiva: fisiología del sistema auditivo, sonoridad, bandas críticas, enmascaramiento, percepción de altura, modelos del sistema auditivo.
4. Filtros digitales con aplicaciones en audio: resonadores, notch, peine, pasa-todo, interpoladores y aplicaciones en efectos de audio y síntesis de sondio.
5. Síntesis de sonido: síntesis aditiva, AM, anillo, FM, modelado físico, aplicaciones.
6. Análisis de tiempo corto de señales de audio: enventanado, STFT, espectrograma, variantes mutiresolución, transformada Q constante (CQT).
7. Análisis Homomórfico: cepstrum y cepstrum complejo, estimación de envolvente, detección de pitch, deconvolución, MFCC, codificación de voz.
8. Análisis por Predicción Lineal: modelo todo polo, cálculo de LPC, orden, inestabilidad, aplicaciones: estimación de formantes.
9. Procesamiento tiempo-frecuencia: Overlap-add, convolución rápida, phase vocoder, aplicaciones y efectos.
10. Análisis por modelado espectral: modelado espectral, componentes tonal transitorio y ruido, estimación de altura, seguimiento de parciales, aplicaciones.
11. Codificación de voz y audio: cuantización, codificación con y sin pérdidas, modelos perceptivos, codificación de voz, codificación de audio.
12. Extracción de información musical: separación en fuentes, reconocimiento de instrumentos, sincronismo temporal, detección de acordes, seguimiento de pulso, análisis de estructura, transcripción automática.
Horarios y salones
Martes y jueves de 10:00 a 12:00 hs.
Salón: Laboratorio de Software del IIE
Las clases en 2022 se dictarán en forma presencial
Fecha de inicio: martes 08/03/2022
Docentes

Martín Rocamora, Pablo Cancela, Iván Meresman-Higgs
Recursos
- Horarios de consulta:
  - Miércoles a las 8:00
  - Viernes a las 17:00
  Las clases de consulta serán por zoom.
  El link de zoom para acceder es este:
  https://salavirtual-udelar.zoom.us/j/89918307909?pwd=QW5tZzl0eDErMXJpNUtLamY3QnVXZz09
  Restringido No disponible hasta que: Eres un Estudiante
- BibliografíaPágina
- NovedadesForo
- ConsultasForo
- Tutorial python numpyURL
- Notebooks usados en claseURL
  Restringido No disponible hasta que: Eres un Estudiante
7 de marzo - 13 de marzo
Clases:
- Clase 1: Teórico - Introducción al procesamiento de audio
  Contenidos: Presentación del curso, digitalización, cuantización, dithering, noise shaping, etc.
  Bibliografía de referencia:
  Ken C. Pohlmann, (2000). Principles of Digital Audio. Chapter 2 - Fundamentals of digital audio
  Rabiner, L.R. & Schafer, R.W. (2011). Theory and Applications of Digital Speech Processing. Chapter 1 - Introduction to digital speech processing
- Clase 2: Teórico - Procesamiento de señales de voz
  Contenidos: Mecanismo de producción de voz y modelo de procesamiento de señales de voz
  Bibliografía de referencia: Rabiner, L.R. & Schafer, R.W. (2011). Theory and Applications of Digital Speech Processing.
  Chapter 3 - Fundamentals of human speech production
  Chapter 5 - Sec. 5.3 Digital models for sampled speech signals
- Diapositivas clase 1 - Introducción al procesamiento de audioArchivo
- Video de la clase 1 (martes 8 de marzo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
- Diapositivas clase 2 - Mecanismo y modelo de producción de vozArchivo
- Video de la clase 2 (jueves 10 de marzo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
14 de marzo - 20 de marzo
Clases:
- Clase 3: Teórico - Procesamiento en el dominio del tiempo
  Contenidos: Medidas de tiempo corto, energía, tasa de cruces por cero, autocorrelación, estimación de frecuencia fundamental.
  Bibliografía de referencia: Rabiner, L.R. & Schafer, R.W. (2011). Theory and Applications of Digital Speech Processing. Chapter 6 - Time-domain methods for speech processing
- Clase 4: Teórico - Percepción auditiva
  Contenidos: Fisiología del sistema auditivo, psicoacústica, modelos del sistema auditivo.
  Bibliografía de referencia: Rabiner, L.R. & Schafer, R.W. (2011). Theory and Applications of Digital Speech Processing. Chapter 4 - Hearing, auditory models, and speech perception
- Diapositivas clase 3 - Procesamiento en el dominio del tiempoArchivo
- Video clase 3 (martes 15 de marzo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
- Diapositivas clase 4 - Percepción auditivaArchivo
- Video clase 4 (jueves 17 de marzo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
- Auditory Transduction - Brandon Pletsch (video)Archivo
- Auditory Transduction - Brandon Pletsch (subtítulos)Archivo
- Cuestionario sobre sistema auditivo
- Paradoja perceptiva: glissando de Shepard-RissetArchivo
  Restringido No disponible hasta que: Eres un Estudiante
21 de marzo - 27 de marzo
Clases:
- Clase 5: Práctico - Práctico 1
  Contenidos: Muestreo, cuantización y dithering en señales de audio. Procesamiento de audio en el dominio del tiempo.
- Clase 6: Teórico - Introducción a filtros digitales
  Contenidos: Conceptos básicos, caracterización de filtros, filtro de media móvil, filtros de Chebyshev
  Bibliografía de referencia: Thomas Steiglitz, K. (1996). Digital Signal Processing Primer: With Applications to Digital Audio and Computer Music. Prentice Hall
- Práctico 1 - Archivos (actualizado)
- Template LATEX para informe prácticoArchivo
- Entrega - Práctico 1Tarea
- Diapositivas clase 6 - Introducción a filtros digitalesArchivo
- Video clase 6 (jueves 24 de marzo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
- The Scientist and Engineer's Guide to Digital Signal Processing (Steven W. Smith)URL
- Introduction to Digital Filters with Audio Applications (Julius O. Smith III)URL
28 de marzo - 3 de abril
Clases:
Clase 7: Teórico - Filtros digitales en audio
Contenidos: Diseño de filtros, filtros peine, filtros pasa-todo
Bibliografía de referencia: Thomas Steiglitz, K. (1996). Digital Signal Processing Primer: With Applications to Digital Audio and Computer Music. Prentice Hall
Clase 8: Teórico - Aplicaciones en síntesis de sonido y efectos de audio
Contenidos: Reverberadores y síntesis por modelado físico.
Bibliografía de referencia: Thomas Steiglitz, K. (1996). Digital Signal Processing Primer: With Applications to Digital Audio and Computer Music. Prentice Hall
- Diapositivas clases 7 y 8 - Filtros digitales en audioArchivo
- Video clase 7 (martes 29 de marzo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
- Video clase 8 (jueves 31 de marzo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
4 de abril - 10 de abril
Clases:
- Clase 9: Práctico - Práctico 2
  Contenidos: Filtros digitales en audio, aplicaciones en síntesis de sonido y efectos de audio.
- Clase 10: Teórico - Análisis de Fourier de tiempo corto
  Contenidos: Transformada de Fourier de Tiempo Corto (STFT), espectrograma, detección de pitch.
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representations
- Práctico 2 - Archivos
- Entrega práctico 2Tarea
- Diapositivas clases 10 y 11 - Análisis de Fourier de tiempo cortoArchivo
- Video clase 10 (jueves 7 de abril 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
11 de abril - 17 de abril
Semana de Turismo (no hay clases)
18 de abril - 24 de abril
Clases:
- Clase 11: Teórico - Representaciones tiempo-frecuencia multi-resolución
  Contenidos: Variantes de la STFT, representaciones multi-resolución, transformada Q-constante (CQT).
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representations
- Clase 12: Teórico - Análisis y síntesis con la STFT
  Contenidos: Síntesis con STFT, reconstrucción perfecta, método de solapamiento y suma.
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representations
- Video clase 11 (martes 19 de abril 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
- Diapositivas clases 12, 13 y 14 - STFT: síntesis y procesamientoArchivo
- Video clase 12 (jueves 21 de abril 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
25 de abril - 1 de mayo
Clases:
- Clase 13: Teórico - Procesamiento tiempo-frecuencia
  Contenidos: Convolución rápida, phase vocoder, aplicaciones.
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representations
- Clase 14: Teórico - Procesamiento tiempo-frecuencia
  Contenidos: Convolución rápida, phase vocoder, aplicaciones.
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representations
- Video clase 13 (martes 26 de abril 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
- Video clase 14 (jueves 28 de abril 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
- Traditional (?) implementation of a Phase Vocoder: the tricks of the tradeURL
- Improved Phase Vocoder Time-Scale Modification of AudioArchivo
2 de mayo - 8 de mayo
Semana de parciales.
No hay clases.
9 de mayo - 15 de mayo
Clases:
- Clase 15: Práctico - Práctico 3
  Contenidos: Análisis de Fourier de tiempo corto, procesamiento tiempo-frecuencia.
- Clase 16: Teórico - Modelado espectral
  Contenidos: Modelado espectral, seguimiento de altura y parciales, aplicaciones.
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 7 - Frequency-Domain Representations
- Práctico 3 - Archivos
- Entrega - Práctico 3Tarea
- Diapositivas clase 16 - Modelado espectralArchivo
- Video clase 16 (jueves 12 de mayo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
16 de mayo - 22 de mayo
Clases:
- Clase 17: Teórico - Análisis Homomórfico I
  Contenidos: Análisis Homomórfico, Cepstrum real y complejo, aplicaciones.
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 8 - The Cepstrum and Homomorphic Speech Processing
- Clase 18: Teórico - Análisis Homomórfico II
  Contenidos: Análisis Homomórfico, Cepstrum real y complejo, aplicaciones.
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 8 - The Cepstrum and Homomorphic Speech Processing
- Diapositivas clases 17, 18 y 19 - Análisis HomomórficoArchivo
- Video clase 17 (martes 17 de mayo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
- Video clase 18 (jueves 19 de mayo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
23 de mayo - 29 de mayo
Clases:
- Clase 19: Teórico - Análisis Homomórfico III
  Contenidos: Análisis Homomórfico, Cepstrum real y complejo, aplicaciones.
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 8 - The Cepstrum and Homomorphic Speech Processing
- Clase 20: Teórico - Análisis por predicción lineal I
  Contenidos: Interpretación en el dominio de la frecuencia, el error de predicción, análisis y codificación de señales de voz, aplicaciones.
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 9 - Linear Predictive Analysis of Speech Signals
- Video clase 19 (martes 24 de mayo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
- Diapositivas clases 20 y 22 - Análisis por predicción linealArchivo
- Video clase 20 (jueves 26 de mayo 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
30 de mayo - 5 de junio
Clases:
- Clase 21: Práctico - Práctico 4
  Contenidos: Análisis Homomórfico, análisis por Predicción Lineal.
- Clase 22: Teórico - Análisis por predicción lineal II
  Contenidos: Interpretación en el dominio de la frecuencia, el error de predicción, análisis y codificación de señales de voz, aplicaciones.
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 9 - Linear Predictive Analysis of Speech Signals
- Práctico 4 - archivos
- Entrega - Práctico 4Tarea
- Video clase 22 (jueves 2 de junio 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
6 de junio - 12 de junio
Clases:
- Clase 23: Teórico - Codificación de voz y audio
  Contenidos: Codificación con y sin pérdidas, cuantización, codificación por entropía, modelo perceptual, codificación por análisis y síntesis
  Bibliografía de referencia: Rabiner, L. R. and Schafer, R. W. (2011). Theory and Applications of Digital Speech Processing. Chapter 11 - Digital Coding of Speech Signals
- Clase 24: Teórico - Sincronismo de audio
  Contenidos: Alineamiento temporal, Dynamic Time Warping (DTW), restricciones, multi-escala, ejemplos y aplicaciones
  Bibliografía de referencia: Müller M. (2015). Fundamentals of Music Processing. Chapter 3 - Music Synchronization
- Diapositivas clase 23 - Codificación de audioArchivo
- Video clase 23 (martes 7 de junio 2022)URL
  Restringido No disponible hasta que: Eres un Estudiante
- Diapositivas clase 24 - Sincronismo de audioArchivo
- Chapter 3: Music Synchronization - Jupyter NotebooksURL
13 de junio - 19 de junio
Clases:
- Clase 25: Se trabaja en el proyecto
  De forma presencial
  Bibliografía de referencia: Müller M. (2015). Fundamentals of Music Processing. Chapter 3 - Music synchronization
- Clase 26: Se trabaja en el proyecto
  De forma presencial
  Bibliografía de referencia: Müller M. (2015). Fundamentals of Music Processing. Chapter 3 - Music synchronization
20 de junio - 26 de junio
Proyecto de fin de curso
27 de junio - 3 de julio
Proyecto de fin de curso
4 de julio - 10 de julio
Proyecto de fin de curso - Defensas

1 comentario:

Arunprakash14 de junio de 2022 a las 2:41
Wow, that is quite informative. I like this article very much. The content was good. If any of the engineering students are looking for a projects for 8051 microcontroller projects, I found this site and they are providing the best service to the engineering students regarding the projects 8051 microcontroller projects
ResponderEliminar
Respuestas

Añadir comentario

Diseño Electrónico

sábado, 11 de junio de 2022

Curso Procesamiento digital de señales de audio - Universidad Republica de Uruguay

General

Procesamiento digital de señales de audio

7 de marzo - 13 de marzo

14 de marzo - 20 de marzo

21 de marzo - 27 de marzo

28 de marzo - 3 de abril

4 de abril - 10 de abril

11 de abril - 17 de abril

Semana de Turismo (no hay clases)

18 de abril - 24 de abril

25 de abril - 1 de mayo

2 de mayo - 8 de mayo

9 de mayo - 15 de mayo

16 de mayo - 22 de mayo

23 de mayo - 29 de mayo

30 de mayo - 5 de junio

6 de junio - 12 de junio

13 de junio - 19 de junio

20 de junio - 26 de junio

Proyecto de fin de curso

27 de junio - 3 de julio

Proyecto de fin de curso

4 de julio - 10 de julio

Proyecto de fin de curso - Defensas

1 comentario: