SEMINARIOS EN INGENIERÍA INFORMÁTICA Y DE
TELECOMUNICACIÓN 2006-2007
Doctorado en Ingeniería
Informática y de
Telecomunicación
Programa Oficial de Posgrado en Ingeniería
Informática y de Telecomunicación
Escuela Politécnica Superior, Universidad Autónoma de
Madrid

21 de Junio de 2007, 12:00
Salón de Grados, Escuela Politécnica Superior,
Universidad Autónoma de Madrid
ROBUST SPEECH RECOGNITION UNDER BAND LIMITED CHANNELS
AND OTHER CHANNEL DISTORTIONS
Nicolás Morales Mombiela
HCTLab-Escuela Politecnica
Superior, Universidad Autónoma de Madrid
Resumen
Este es el seminario previo a la lectura de Tesis del candidato Nicolás
Morales Mombiela. La tesis es un estudio teórico y experimental de reconocimiento
automático de voz, robusto frente a distorsiones de canal y con particular
atención a filtros que eliminan completamente partes del espectro de frecuencias
en la señal. En su trabajo, el autor presenta un modelo matemático
del efecto que este tipo de distorsiones causa en la señal parametrizada,
y propone algoritmos de compensación de la señal para solventar
el desajuste que se crea entre modelos entrenados en condiciones ideales, y la
señal distorsionada. En la sección experimental se presenta un amplio
catálogo de pruebas destinadas a probar distintos aspectos de los algoritmos
de compensación presentados. También se proponen varios experimentos
que recrean situaciones que podrían presentarse en aplicaciones prácticas,
como la posibilidad de que la señal de voz esté afectada por diferentes
limitaciones en banda desconocidas a-priori, la compensación de distorsiones
para las que no existen datos de entrenamiento, la escasez de datos de entrenamiento,
etc. En todos los casos, se comparan los resultados con otras técnicas
de robustez habitualmente utilizadas (típicamente re-entrenamiento y adaptación
de modelos acústicos). Los resultados obtenidos con la compensación
de la señal, ofrecen grandes mejoras en la tasa de reconocimiento frente
al baseline. El rendimiento es comparable al de las técnicas de modelos
robustos, y su uso puede ser muy beneficioso cuando se necesita una solución
ligera (por ejemplo en sistemas portátiles, o con limitaciones en la capacidad
de almacenamiento y computación), cuando los sistemas están sometidos
a múltiples distorsiones, o cuando los datos de entrenamiento de cada una
de las posibles distorsiones son escasos. Además, los algoritmos propuestos
pueden ser combinados con los de modelos robustos para obtener aún mejores
tasas de reconocimiento.
presentación PDF
Nicolás Morales Mombiela
Nicolás Morales Mombiela cursó estudios de Ciencias Físicas
en la Facultad de Ciencias de la Universidad Autónoma de Madrid en el periodo
1997-2002. En 2000 realizó una estancia Erasmus de un año en la
Universidad de Toulouse III Paul Sabatier, y durante el último año
de estudios de grado disfrutó de una beca de colaboración de la
Universidad Autónoma de Madrid en el Laboratorio de Microelectrónica.
Desde 2002, ha realizado estudios de Tercer Ciclo en la Universidad Autónoma.
Obtuvo el Diploma de Estudios Avanzados en 2004 por su estudio en Sistema de Reconocimiento
de Gran Vocabulario, y ahora presenta su Tesis Doctoral en “Reconocimiento
robusto de voz frente a canales que eliminan partes del espectro de frecuencias
y otras distorsiones de canal”. Entre 2003 y 2006 disfrutó de una
beca FPU del Ministerio de Educación y Ciencia. En 2004 y 2005 realizó
dos estancias de 6 meses cada una, bajo la supervisión de del profesor
John Hansen en las Universidades de Colorado y Texas, respectivamente, y en 2006
realizó una estancia de 6 meses en el centro de investigación IBM
TJ Watson en Nueva York. EL CV extendido se encuentra disponible en: CV (actualizado
en la versión inglesa).