CURSO 2004-2005

PROFESORES:
EDUARDO LÓPEZ GONZALO eduardo@gaps.ssr.upm.es
LUIS HERNÁNDEZ GÓMEZ luis@gaps.ssr.upm.es
Despacho C-330 : Laboratorio: A202 - L

ÍNDICE:


OBJETIVOS

El Laboratorio de Tratamiento Digital de la Voz tiene como objetivo genérico servir de complemento práctico a los conocimientos teóricos que se imparten en las asignaturas Tratamiento Digital de la Voz . Para cumplir el objetivo genérico anterior, las prácticas que se realizan se agrupan, en cuanto a su contenido, en dos conjuntos diferenciados.

Por un lado, un conjunto de prácticas que hacen referencia a:
 

Y, por otro lado, un conjunto de prácticas que encaminen al alumno a la aplicación de los conocimientos y técnicas básicas aprendidas sobre alguna de las principales áreas de aplicación del Procesado de Voz. De este último tipo de prácticas cada alumno solamente realizará una, que constituirá un pequeño proyecto con el que concluirá sus actividades en este laboratorio. Los ámbitos de actuación donde se centrarán preferentemente esos pequeños proyectos, correponden a las principales áreas de aplicación consideradas en la asignatura teórica: Codificación, Síntesis y Reconocimiento del Habla y de Locutores. A pesar de lo anterior, no se desestimará cualquier otro tipo de iniciativas por parte de los alumnos, siempre y cuando cuenten con una apropiada supervisión por parte del profesor. A modo de ejemplo, podrían plantearse trabajos dirigidos al desarrollo de un sistema de reconocimiento de locutores basado en GMM, el manejo de diferentes estándares de codificación de voz (G729, G728, G723.1, AMR, RPE-LTP, ...), o el uso de entornos software de reconocimiento y síntesis de voz (HTK, Microsoft Speech SDK, VoiceXML).

Las actividades de estos laboratorios se realizarán principalmente sobre el entorno MATLAB. Adicionalmente, el personal responsable del laboratorio proporcionará a los alumnos información sobre diversas herramientas de trabajo disponibles en tecnologías del habla, como son: entornos de análisis de voz como snack para Tcl/Tk, software de implementació de estándares de codificación de voz, interfaces de programación como el Speech API de Microsoft, o entornos de trabajo como HTK, herramientas de la empresa Nuance para trabajo sobre VoiceXML o software de diferentes estándares de codificación de voz.

                                                                ...índice
 



PROGRAMA

El conjunto de prácticas que integran el Laboratorio se estructura en dos niveles diferenciados: Prácticas-Problemas guiados y Proyectos.

A) Prácticas-Problemas guiados: Pretenden cubrir los ejercicios prácticos asociados a los contenidos teóricos básicos en Procesado Digital de Voz.

Abarcan los temas siguientes:


Se realizarán cuatro prácticas en las que se propondrán ejercicios elementales sobre contenidos basicos y se pedira a los alumnos la realización de pequeños ejercicios de aplicación en cada práctica.
 

B) Proyectos: práctica final del laboratorio que tiene como objetivo que el alumno desarrolle una actividad creativa, basada en los conocimientos impartidos en la asignatura teórica ya complementados en las prácticas-problemas dirigidos. En concreto, los alumnos deberán realizar el planteamiento completo para abordar el diseño y simulación de una aplicación sencilla dentro de los ámbitos Codificación, Síntesis y Reconocimiento, pudiendo orientarse esta práctica final al conocimiento y uso de herramientas de trabajo como las anteriormente citadas: snack, speech API de Microsoft, VoiceXML sobre el entorno Nuance, HTK, codificación de voz, etc.
 
 

LISTADO DE PRACTICAS

Prácticas-Problemas Guiados
    1.- Conversión A/D y D/A: análisis y manipulación de formas de onda de voz.
    2.- Técnicas básicas de análisis en el tiempo de la señal de voz.
    3.- Técnicas básicas de análisis en frecuencia de la señal de voz.
    4.- Análisis de esquemas simples de codificación de voz.
 

Proyectos: Tema libre supervisado por los profesores de la asignatura.

Preferentemente las prácticas se realizarán por parejas.
 


  ...índice


 




BIBLIOGRAFÍA BÁSICA

Signal Processing of Speech

F.J. Owens, Mc. New Electronics

Guiones de Prácticas del Laboratorio de Procesado de Voz ETSIT-UPM
 

BIBLIOGRAFIA COMPLEMENTARIA

  1. Sadaoki Furui, Digital Speech Processing, Synthesis and Recognition (Second Edition, Revised and Expanded), Marcel Dekker, New York, 2001
  2. J. Holmes and W. Holmes, Speech Synthesis and Recognition (2nd Edition). Taylor & Francis, London & New York , 2001.
  3. X. Huang, A. Acero and H-W Hon, Spoken Language Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, New Jersey, 2001.
  4. A. Quilis, Fonética Acústica de la Lengua Española,Ed. Gredos, 1981.
  5. Joseph Picone, http://www.isip.msstate.edu/publications/courses/ece_8463/ Curso: FUNDAMENTALS OF SPEECH RECOGNITION , Dept. of Elect. and Comp. Eng., Mississippi State University .
  6. D OShaughnessy, SpeechCommunication. Human and machine. Addisson-Wesley 1987.
Información de la asignatura teórica en www.gaps.ssr.upm.es/TDV
 
   ...índice

 








EVALUACIÓN
 


La evaluación final de la asignatura será el promedio de las evaluaciones de cada una de las prácticas.



DIRECCIÓN ftp DONDE SE ENCUENTRA LA DOCUMENTACION Y UTILIDADES DEL LABORATORIO

BIBLIOGRAFÍA Y ENLACES

Pueden encontrarse referencias bibliográficas, incluyendo enlaces a INTERNET, en la información asociada a la asignatura teórica Tratamiento Digital de la Voz

  ...índice

CALENDARIO PARA EL CURSO 2004-2005 ACTUALIZADO EL 9 de febrero de 2005

El periodo de actividades del laboratorio comenzará el jueves 17 de febrero (con una reunión de presentación de las actividades en el laboratorio A.202-L) y finalizará el martes 31 de mayo, y constará de sesiones de trabajo y sesiones de discusión y exposición de trabajos.
 


La realización de las prácticas y entrega de informes correspondientes será:
 

  ...índice


correo:

Sugerencias y problemas a webmaster@gaps.ssr.upm.es