SEMINARIOS DE DOCTORADO 2004-2005

 

Doctorado en Ingeniería Informática y de Telecomunicación
Escuela Politécnica Superior, Universidad Autónoma de Madrid

Escuela Politécnica Superior                       UAM


21 de Abril de 2005, 12:00

Salón de Grados, Escuela Politécnica Superior, Universidad Autónoma de Madrid


Reconocimiento automático de personas por su voz: estado del arte y líneas de futuro

Joaquín González Rodríguez

Escuela Politécnica Superior – Universidad Autónoma de Madrid

     


Resumen/Abstract

Partiendo del hecho evidente de que las personas somos capaces de reconocer a otras personas por su voz, haremos un rápido recorrido en esta presentación desde las particularidades con carácter identificativo presentes en la voz de un hablante, hasta las capacidades de identificación de los sistemas de reconocimiento actuales en el estado del arte, basados en la combinación multinivel de enfoques acústicos generativos (GMM-UBM) y discriminativos (kernels y SVM), reconocimiento fonético con modelos de lenguaje, idiolectos, tokenización de prosodia y energía, NERFs, fusión de sistemas, etc . Para ello veremos desde cómo se extraen dichas características (parametrización), cómo obtenemos modelos de dichas características individualizadoras (reconocimiento de patrones), o cómo validamos las diferentes alternativas algorítmicas (performance assessment). Describiremos asimismo las desafiantes líneas de futuro en este ámbito, y pondremos un ejemplo completo global describiendo el sistema multinivel de reconocimiento de locutor de ATVS-UAM.

presentación PDF

Joaquín González Rodríguez

D. Joaquín González Rodríguez es Catedrático de Escuela Universitaria actualmente en Comisión de Servicios en la Escuela Politécnica Superior de la Universidad Autónoma de Madrid, teniendo reconocido un sexenio de investigación (1995-2000). Es codirector junto a Javier Ortega García del grupo de investigación “Área de Tratamiento de Voz y Señales (ATVS)”, que fundan en 1994, ubicado en la actualidad en la Universidad Autónoma de Madrid, participando como investigador principal tanto en proyectos públicos (europeos y nacionales) como privados, tanto con instituciones públicas como destacadas empresas tecnológicas dentro y fuera de España. El grupo inició sus actividades en las áreas de reconocimiento de locutores, robustez y mejora de voz, haciendo especial énfasis en el ámbito forense/policial/inteligencia, habiendo extendido sus actividades en los últimos años al reconocimiento de idioma y a la biometría, centrándose en este último caso en reconocimiento de firma on-line, huella dactilar, cara, iris, y multimodalidad. El grupo de voz que dirige ha participado en las evaluaciones NIST (2001, 2002 y 2004) de reconocimiento de locutores (tercer puesto de 24 participantes en 2004), y en la evaluación NFI 2003 de reconocimiento forense de locutores (primer y único sistema con resultados acordes a la metodología bayesiana forense de análisis de la evidencia), con excelentes resultados en todos los casos. Ha dirigido una tesis doctoral sobre mejora de voz frente a  ruido y reverberación mediante arrays de micrófonos sobre DSP en tiempo real, y dirige en la actualidad dos tesis doctorales, la primera de ellas en tecnología de reconocimiento de locutores y su aplicación forense, y una segunda en reconocimiento automático del idioma presente en una conversación. Además, publica y revisa en revistas y congresos internacionales de primera fila.