SEMINARIOS DE DOCTORADO 2004-2005


Doctorado en Ingeniería Informática y de Telecomunicación
Escuela Politécnica Superior, Universidad Autónoma de Madrid

Escuela Politécnica Superior                        


15 de Julio de 2005, 11:00

Salón de Grados, Escuela Politécnica Superior, Universidad Autónoma de Madrid


Nuevos Enfoques en el Reconocimiento Automático y Robusto de Voz

Richard M. Stern

Electrical and Computer Engineering Department

Carnegie Mellon University

     

UNISYS    Contribuye a la financiación de este seminario

Resumen

A medida que la tecnología de reconocimiento de voz se transfiere de los laboratorios al mercado, el reconocimiento robusto aumenta su importancia. En esta plática se tratarán algoritmos clásicos y recientes de reconocimiento robusto de voz.

El  tipo más tratable de dregradación ambiental  de la voz es la producida por ruido y filtrado aditivos y cuasiestacionarios. Este tipo de distorsión pueden ser disminuida significativamente por técnicas clásicas como filtrado pasoaltas de cepstrales (como se ejemplifica por la normalización de la media de cepstrales y el filtrado RASTA), o como modelos estadísticos de la distorsión (como la normalización de cepstral dependiente de la palabra codificada y la expansión en una serie de de vectores de Taylor).

Las técnicas mencionadas fallan en mejorar el rendimiento cuando la voz se degrada por ruido transitorio y no estacionario como la música o voz de fondo. Se describirán y compararán las efectividades de las técnicas basadas en: patrones perdidos, análisis multibanda, combinación de características, y procesimiento motivado por el systema auditiva humana, técnicas utilizadas para este último tipo de ruido.

presentación PDF

Richard M. Stern

Richard M. Stern recibió el grado de licenciatura  por parte del Massachusetts Institute of  Technology (MIT) en 1970, el grado de maestría por parte de la Universidad de California en Berkeley y el doctorado por parte del MIT en 1977 todos en Electrical Engineering. Desde 1977 forma parte de la facultad de Carnegie Mellon University como Profesor en Electrical Engineering y Director Adjunto del Information Networking Insitute de CMU.  Gran parte del trabajo del Dr. Stern esta relacionado con sistemas para el proceso del habla, en donde investiga de manera particular el desarrollo de técnicas relacionadas con metodológicas para permitir el reconocimiento automático del habla robusto a cambios en el ambiente acústico. También ha desarrollado algoritmos para el  análisis de oraciones y adaptación al hablante en previos sistemas de CMU. Además de su actividad en el reconocimiento del habla, el Dr. Stern también mantiene activo un programa de investigación en percepción auditiva, área en la que se ha destacado por su trabajo en la teoría de percepción acústica binaural. El Dr. Stern es miembro del Institute of Electrical and Electronics Engineers y la Acoustical Society of America y recibió el Premio Allen Newell for Research Excellence en 1992.