SEMINARIOS EN INGENIERÍA INFORMÁTICA Y DE TELECOMUNICACIÓN 2006-2007


Doctorado en Ingeniería Informática y de Telecomunicación

Programa Oficial de Posgrado en Ingeniería Informática y de Telecomunicación
Escuela Politécnica Superior, Universidad Autónoma de Madrid

Escuela Politécnica Superior                        


15 de enero de 2007, 12:00

Salón de Grados, Escuela Politécnica Superior, Universidad Autónoma de Madrid


Búsqueda de Información Tipada: "Encuentra las fechas más importantes respecto al calentamiento global"

Hugo Zaragoza

Yahoo! Research Barcelona

     

Resumen

Los algoritmos de búsqueda y recuperación de información textual (IR) se han basado tradicionalmente en una comparación puramente superficial de las palabras; éstas son interpretadas como cadenas de caracteres, sin tener en cuenta características lingüísticas de las palabras. Esto es así por una buena razón: desde sus inicios (en los años 60!) la comunidad de IR ha intentado utilizar todo tipo de información lingüística (sintáctica y semántica) pero ha sido incapaz (bajo una evaluación empírica rigurosa) de mejorar de manera significativa los resultados obtenidos por los métodos superficiales.

En los últimos años el éxito de las aplicaciones y motores de búsqueda sobre la Web han agudizado la necesidad de desarrollar algoritmos de búsqueda capaces de manipular de manera más semántica la información textual. Desgraciadamente, a nivel teórico hemos avanzado relativamente poco en este tema desde los 60, pero hoy en día disponemos de un gran número de técnicas de otras disciplinas (como aprendizaje automático y procesamiento del lenguaje) y una enorme cantidad de datos.

Recientemente se han formalizado varias tareas que requieren algoritmos de búsqueda capaces de utilizar información lingüística del texto de manera efectiva. La búsqueda de información tipada es una tarea de este tipo sobre la que trabajamos en el laboratorio de Yahoo! Research Barcelona. Esta tarea consiste en la recuperación de frases que contengan entidades de un tipo pre-establecido (como por ejemplo: fechas, personajes, lugares) y que sean relevantes a una consulta generalista (sin restringirse a un dominio concreto). En mi charla presentaré las características principales de esta tarea y de la arquitectura que utilizamos para desarrollar modelos y evaluarlos.

Para representar el texto utilizamos una serie de etiquetadores lingüísticos (sintácticos y semánticos). Esta representación se utiliza para extraer un gran número de características de cada palabra y frase que luego son combinadas con otras características dependientes de los algoritmos de búsqueda superficial. Esta combinación es parametrizada y los parámetros ajustados por aprendizaje on-line.

Presentación PDF

Hugo Zaragoza

Hugo Zaragoza (http://research.yahoo.com/~hugoz) is a researcher working on Information Retrieval at Yahoo! Research Barcelona. He is interested in the applications of machine learning (ML) and natural language processing (NLP) for information retrieval (IR). More specifically, he is interested in developing measures or relevance (i.e. ranking functions) between linguistic objects such as search queries and web documents. From 2001 to 2006, Hugo worked at Microsoft Research (Cambridge, UK) with Stephen Robertson, mostly on probabilistic ranking methods for corporate and web search, but also on document classification, expert finding, relevance feedback, and dialogue generation for games. He also spent a considerable amount of time collaborating with Microsoft product groups such as MSN-Search and SharePoint Portal Server. Prior to Microsoft Research, Hugo taught computer science and completed a Ph.D. at the LIP6 (U. Paris 6) on the application of dynamic probabilistic models to a wide range of Information Access problems.