SEMINARIOS EN INGENIERÍA INFORMÁTICA Y DE TELECOMUNICACIÓN 2006-2007


Doctorado en Ingeniería Informática y de Telecomunicación

Programa Oficial de Posgrado en Ingeniería Informática y de Telecomunicación
Escuela Politécnica Superior, Universidad Autónoma de Madrid

Escuela Politécnica Superior                        


21 de Junio de 2007, 12:00

Salón de Grados, Escuela Politécnica Superior, Universidad Autónoma de Madrid


ROBUST SPEECH RECOGNITION UNDER BAND LIMITED CHANNELS AND OTHER CHANNEL DISTORTIONS

Nicolás Morales Mombiela

HCTLab-Escuela Politecnica Superior, Universidad Autónoma de Madrid


     

Resumen

Este es el seminario previo a la lectura de Tesis del candidato Nicolás Morales Mombiela. La tesis es un estudio teórico y experimental de reconocimiento automático de voz, robusto frente a distorsiones de canal y con particular atención a filtros que eliminan completamente partes del espectro de frecuencias en la señal. En su trabajo, el autor presenta un modelo matemático del efecto que este tipo de distorsiones causa en la señal parametrizada, y propone algoritmos de compensación de la señal para solventar el desajuste que se crea entre modelos entrenados en condiciones ideales, y la señal distorsionada. En la sección experimental se presenta un amplio catálogo de pruebas destinadas a probar distintos aspectos de los algoritmos de compensación presentados. También se proponen varios experimentos que recrean situaciones que podrían presentarse en aplicaciones prácticas, como la posibilidad de que la señal de voz esté afectada por diferentes limitaciones en banda desconocidas a-priori, la compensación de distorsiones para las que no existen datos de entrenamiento, la escasez de datos de entrenamiento, etc. En todos los casos, se comparan los resultados con otras técnicas de robustez habitualmente utilizadas (típicamente re-entrenamiento y adaptación de modelos acústicos). Los resultados obtenidos con la compensación de la señal, ofrecen grandes mejoras en la tasa de reconocimiento frente al baseline. El rendimiento es comparable al de las técnicas de modelos robustos, y su uso puede ser muy beneficioso cuando se necesita una solución ligera (por ejemplo en sistemas portátiles, o con limitaciones en la capacidad de almacenamiento y computación), cuando los sistemas están sometidos a múltiples distorsiones, o cuando los datos de entrenamiento de cada una de las posibles distorsiones son escasos. Además, los algoritmos propuestos pueden ser combinados con los de modelos robustos para obtener aún mejores tasas de reconocimiento.

presentación PDF

Nicolás Morales Mombiela

Nicolás Morales Mombiela cursó estudios de Ciencias Físicas en la Facultad de Ciencias de la Universidad Autónoma de Madrid en el periodo 1997-2002. En 2000 realizó una estancia Erasmus de un año en la Universidad de Toulouse III Paul Sabatier, y durante el último año de estudios de grado disfrutó de una beca de colaboración de la Universidad Autónoma de Madrid en el Laboratorio de Microelectrónica. Desde 2002, ha realizado estudios de Tercer Ciclo en la Universidad Autónoma. Obtuvo el Diploma de Estudios Avanzados en 2004 por su estudio en Sistema de Reconocimiento de Gran Vocabulario, y ahora presenta su Tesis Doctoral en “Reconocimiento robusto de voz frente a canales que eliminan partes del espectro de frecuencias y otras distorsiones de canal”. Entre 2003 y 2006 disfrutó de una beca FPU del Ministerio de Educación y Ciencia. En 2004 y 2005 realizó dos estancias de 6 meses cada una, bajo la supervisión de del profesor John Hansen en las Universidades de Colorado y Texas, respectivamente, y en 2006 realizó una estancia de 6 meses en el centro de investigación IBM TJ Watson en Nueva York. EL CV extendido se encuentra disponible en: CV (actualizado en la versión inglesa).