
Los algoritmos de búsqueda y recuperación de información textual (IR) se han basado tradicionalmente en una comparación puramente superficial de las palabras; éstas son interpretadas como cadenas de caracteres, sin tener en cuenta características lingüísticas de las palabras. Esto es así por una buena razón: desde sus inicios (en los años 60!) la comunidad de IR ha intentado utilizar todo tipo de información lingüística (sintáctica y semántica) pero ha sido incapaz (bajo una evaluación empírica rigurosa) de mejorar de manera significativa los resultados obtenidos por los métodos superficiales.
En los últimos años el éxito de las aplicaciones y motores de búsqueda sobre la Web han agudizado la necesidad de desarrollar algoritmos de búsqueda capaces de manipular de manera más semántica la información textual. Desgraciadamente, a nivel teórico hemos avanzado relativamente poco en este tema desde los 60, pero hoy en día disponemos de un gran número de técnicas de otras disciplinas (como aprendizaje automático y procesamiento del lenguaje) y una enorme cantidad de datos.
Recientemente se han formalizado varias tareas que requieren algoritmos de búsqueda capaces de utilizar información lingüística del texto de manera efectiva. La búsqueda de información tipada es una tarea de este tipo sobre la que trabajamos en el laboratorio de Yahoo! Research Barcelona. Esta tarea consiste en la recuperación de frases que contengan entidades de un tipo pre-establecido (como por ejemplo: fechas, personajes, lugares) y que sean relevantes a una consulta generalista (sin restringirse a un dominio concreto). En mi charla presentaré las características principales de esta tarea y de la arquitectura que utilizamos para desarrollar modelos y evaluarlos.
Para representar el texto utilizamos una serie de etiquetadores lingüísticos (sintácticos y semánticos). Esta representación se utiliza para extraer un gran número de características de cada palabra y frase que luego son combinadas con otras características dependientes de los algoritmos de búsqueda superficial. Esta combinación es parametrizada y los parámetros ajustados por aprendizaje on-line.