Almacenamiento y recuperación de información en la web
Escuela Politécnica Superior
Universidad Autónoma de Madrid
última modificación: 17/10/11
Ficha oficial de la asignatura en el programa oficial de posgrado de la en Ingeniería Informática y de Telecomunicación (Máster y Doctorado)
Horario: lunes de 16 a 18h, aula 6, sesiones prácticas en el aula Multimedia.
Fecha de comienzo: 3 de octubre de 2011.
Fechas de clase en laboratorio: 24 y 31 octubre, 14 noviembre, 12 y 19 diciembre, 9 y 16 enero.
Fecha del examen final: 30 de enero a las 16h, aula 6.
Profesores: Pablo Castells, Fernando Díez y Estrella Pulido
Descripción
Con la explosión de la web en la década de los 90, el campo de la recuperación de la información ha pasado de ser un área de interés minoritario a convertirse en foco de atención para empresas, instituciones, y cientos de millones de usuarios. Con el crecimiento espectacular de la web, los buscadores se han convertido en puertas de entrada indispensables para cualquier usuario. El volumen de la web y la falta de un modelo de datos subyacente claro representan un obstáculo importante para la resolver las búsquedas. Muchas técnicas que se habían desarrollado durante décadas anteriores a la aparición de la web, junto con otras nuevas y más específicas, subyacen a la efectividad de los buscadores actuales. En este curso se estudiarán los fundamentos y técnicas para la recuperación de información, como problema general en grandes bases documentales, así como en particular en la web.
Temario
- Introducción y fundamentos
- Modelos de recuperación
- Modelos clásicos: booleano, vectorial y probabilístico
- Modelos alternativos: conjuntivistas, algebraicos y probabilísticos
- Latent Semantic Analysis
- Evaluación y métricas
- Búsqueda en la web
- Crawlers
- Algoritmos de ranking
-
Búsqueda distribuida
- Técnicas de personalización
- Búsqueda personalizada
- Relevance feedback
-
Sistemas de recomendación
- Lenguajes de consulta
- Bases de datos web
- Bases de datos XML
Bibliografía básica
- Modern Information Retrieval, 2nd edition. Ricardo Baeza-Yates, Berthier Ribiero-Neto. Addison-Wesley, 2011. Web de la 1a edición con materiales y contenidos online.
- Search Engines: Information Retrieval in Practice. W. Bruce Croft, Donald Meltzer, Trevor Strohman. Addison-Wesley, 2010.
- Introduction to Information Retrieval. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Cambridge University Press, 2008. Web del libro con recursos y versión online.
- Recommender Systems Handbook. F. Ricci, L. Rokach, B. Shapira, P. B. Kantor
(Eds.). Springer Verlag, 2011.
- Recuperación de Información: un enfoque práctico y multidisciplinar. F. Cacheda, J. M. Fernández Luna, J. Huete (editores). Ra-Ma, 2011.
Bibliografía auxiliar
- Understanding Search Engines. Michael W. Berry and Murray Browne. SIAM, 1999.
- Mathematical Foundations of Information Retrieval. Sándor Dominich. Kluwer Academic Publishers, 2001.
- Latent Semantic Analysis. Thomas K. Landauer, Danielle S. McNamara, Simon Dennis, Walter Kintsch. Lawrence Erlbraum, 2007.
- TREC: Experiment and Evaluation in Information Retrieval. Ellen Voorhees and Donna K. Harman. MIT Press, 2005.
- Modeling the Internet and the Web. Probabilistic Methods and Algorithms. Pierre Baldi, Paolo Frasconi, Padhraic Smyth. Wiley, 2003.
- Knowledge-Based Information Retrieval and Filtering from the Web. Witold Abramowicz. Kluwer Academic Publishers, 2003.
- Google's PageRank and Beyond: The Science of Search Engine Rankings. Amy N. Langville and Carl D. Meyer. Princeton University Press, 2006.
- The wisdom of crowds. James Surowiecki. Anchor Books, 2004.
Enlaces
Notificar cualquier error en estas páginas a Pablo Castells <pablo.castells@uam.es>