SEMINARIOS DE DOCTORADO 2004-2005
Doctorado en Ingeniería
Informática y de
Telecomunicación
Escuela Politécnica Superior, Universidad Autónoma de
Madrid

15 de Julio de 2005, 11:00
Salón de Grados, Escuela Politécnica Superior,
Universidad Autónoma de Madrid
Nuevos
Enfoques en el Reconocimiento Automático y Robusto de Voz
Richard M. Stern
Electrical and Computer Engineering Department
Carnegie Mellon
University
Contribuye
a la financiación de este seminario
Resumen
A medida que la tecnología de reconocimiento
de voz se transfiere de los laboratorios al mercado, el reconocimiento
robusto aumenta su importancia. En esta plática se
tratarán algoritmos clásicos y recientes de
reconocimiento robusto de voz.
El tipo más
tratable de dregradación ambiental de la voz es la
producida por ruido y filtrado aditivos y
cuasiestacionarios. Este tipo de distorsión pueden ser
disminuida significativamente por técnicas clásicas como
filtrado pasoaltas de cepstrales (como se ejemplifica por la
normalización de la media de cepstrales y el filtrado RASTA), o
como modelos estadísticos de la distorsión (como la
normalización de cepstral dependiente de la palabra codificada y
la expansión en una serie de de vectores de Taylor).
Las técnicas mencionadas fallan en mejorar el rendimiento cuando
la voz se degrada por ruido transitorio y no estacionario como la
música o voz de fondo. Se describirán y compararán
las efectividades de las técnicas basadas en: patrones perdidos,
análisis multibanda, combinación de
características, y procesimiento motivado por el systema
auditiva humana, técnicas utilizadas para este último
tipo de ruido.
presentación PDF
Richard M. Stern
Richard M. Stern recibió el
grado de licenciatura por parte del Massachusetts Institute
of Technology (MIT) en 1970, el grado de maestría por
parte de la Universidad de California en Berkeley y el doctorado por
parte del MIT en 1977 todos en Electrical Engineering. Desde 1977 forma
parte de la facultad de Carnegie Mellon University como Profesor en
Electrical Engineering y Director Adjunto del Information Networking
Insitute de CMU. Gran parte del trabajo del Dr. Stern esta
relacionado con sistemas para el proceso del habla, en donde investiga
de manera particular el desarrollo de técnicas relacionadas con
metodológicas para permitir el reconocimiento automático
del habla robusto a cambios en el ambiente acústico.
También ha desarrollado algoritmos para el análisis
de oraciones y adaptación al hablante en previos sistemas de
CMU. Además de su actividad en el reconocimiento del habla, el
Dr. Stern también mantiene activo un programa de
investigación en percepción auditiva, área en la
que se ha destacado por su trabajo en la teoría de
percepción acústica binaural. El Dr. Stern es miembro del
Institute of Electrical and Electronics Engineers y la Acoustical
Society of America y recibió el Premio Allen Newell for Research
Excellence en 1992.