Publication: Técnicas avanzadas de recuperación de información: Procesos, técnicas y métodos
Loading...
Full text at PDC
Publication Date
2013-05-01
Authors
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
mblazquez.es
Abstract
¿Qué son técnicas avanzadas de recuperación de información? Son todos aquellos procesos destinados a la recuperación de información, desde la generación de las
colecciones, su depuración, indexado, tratamiento textual, clasificación, almacenamiento, recuperación mediante modelos booleanos, vectoriales, probabilísticos, basados en el lenguaje, así como todos aquellos elementos que inciden en cualquier aspecto relacionado como por ejemplo el interfaz de consulta, el comportamiento del usuario, la retroalimentación de las consultas y la representación de la información.
Todos estos aspectos de la recuperación de información serán tratados desde la óptica de la Documentación. Esto implica un enfoque práctico y menos teórico, con el que se pretende enseñar la forma en la que actuan tales componentes, su interrelación, aplicaciones reales a la recuperación en la web, su aplicación en motores de búsqueda, catálogos bibliográficos OPAC, así como otras aplicaciones bibliográfico-documentales e informacionales. En este sentido el presente curso representa una guía eficaz y directa para comprender cómo aprovechar tales técnicas e implantarlas en casos reales.
Description
Unesco subjects
Keywords
Citation
ADAM, G.; BOURAS, C.; POULOPOULOS, V. 2009. CUTER: an Efficient Useful Text Extraction Mechanism. Disponible en: http://ru6.cti.gr/ru6/publications/3267PID838806.pdf
BAEZA YATES, R.; RIBEIRO NETO, B. 2005. Modelling: Boolean model. En: Modern Information Retrieval. Disponible en: http://grupoweb.upf.es/WRG/mir2ed/pdf/slides_chap03.pdf
BAEZA YATES, R.; RIBEIRO-NETO, B. 1999. Modern Information Retrieval. Addison Wesley.
BERRY, M.W.; BROWNE, M. 2005. Understanding search engines: mathematical modeling and text retrieval. Disponible en: http://www.bookf.net/p/7539-understanding-search-engines
BOOTH, A. D. 1967. A Law of Occurrences for Words of Low Frequency. Information and control, 10(4):386-393. Disponible en: http://www.sciencedirect.com/science/article/pii/S001999586790201X
CROFT, W. B.; HARPER, D. J. 1979. Using probabilistic models of document retrieval without relevance information. Journal of Documentation. 35(4): pp.285-295
CUNNINGHAM, H.; BONTCHEVA, K.; TABLAN, V. [et.al.] 2012. Gate: General Architecture for text engineering. Disponible en: http://gate.ac.uk/
DROST. I.; INGERSOLL, G.; MARGULIES, B. [et.al.] 2010. Apache OpenNLP. Disponible en: http://incubator.apache.org/opennlp/
FIGUEROLA, C.G.; ALONSO BERROCAL, J.L.; ZAZO RODRÍGUEZ, A.F.; RODRÍGUEZ, E. Algunas Técnicas de Clasificación Automática de Documentos. En: Cuadernos de Documentación Multimedia, (15). Disponible en: http://multidoc.rediris.es/cdm/viewarticle.php?id=28&layout=html
GANJISAFFAR. Y. 2012. Crawler4j. Disponible en: http://code.google.com/p/crawler4j/
GROSSMANY, D.A.; FRIEDER, O. 2004. Information Retrieval, Algorithms and Heuristic. Springer.
JIMÉNEZ SALAZAR, H.; PINTO, D.; ROSSO, P. 2005. Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos. En: Procesamiento del Lenguaje Natural. 35: pp. 383-390. Disponible en: http://www.sepln.org/revistaSEPLN/revista/35/47.pdf
JIMÉNEZ SALAZAR, H.; PINTO, D.; ROSSO, P. 2005. Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos. En: Procesamiento del Lenguaje Natural. 35: pp. 383-390. Disponible en: http://www.sepln.org/revistaSEPLN/revista/35/47.pdf
LÓPEZ, D. 2011. Information extraction in the WWW: technology and tools for problem solving = Extracción de información en la web, tecnología y herramientas para resolver la problemática. En: SISOB Observatorium for Science in Society based in Social Models. Disponible en: http://sisobproject.wordpress.com/2011/11/18/information-extraction-in-thewww-technology-and-tools-for-problem-solving-extraccion-de-informacion-enla-web-tecnologia-y-herramientas-para-resolver-la-problematica
LUHN, H. P. 1958. The Automatic Creation of Literature Abstracts. IBM Journal of Research Development, 2(2): pp.159-165
LUHN, H.P. 1960. Keyword-in-context index for technical literature. American Documentation, 11(4). pp. 288–295
MANNING, C.D.; RAGHAVAN, P.; SCHÜTZE, H. 2008. Introduction to Information Retrieval. Cambridge University Press. 107-114 pp.
MARTÍNEZ COMECHE, J.A. 2006. Los modelos clásicos de recuperación de información y su vigencia. En: Tercer Seminario Hispano-Mexicano de investigación en Bibliotecología y Documentación, UNAM, Centro Universitario de Investigaciones Bibliotecológicas. pp.187-206. Disponible en: http://eprints.rclis.org/bitstream/10760/9662/1/Modelos_RI_vers_def.pdf
MOONEY, R.J.; NAHM, U.Y. 2005. Text Mining with Information Extraction. En: Multilingualism and Electronic Language Management: Proceedings of the 4th International MIDP Colloquium. pp. 141-160. Disponible en: http://www.cs.utexas.edu/~ml/papers/discotex-melm-03.pdf
NIKIC, V. 2010. Web Harvest. Disponible en: http://webharvest.sourceforge.net/
OSWALD, D. 2006. HTML Parser. Disponible en: http://htmlparser.sourceforge.net/
PASTERNACK, J.; ROTH, D. 2009. Extracting Article Text from the Web with Maximum Subsequence Segmentation. En: WWW 2009 MADRID!, Track: XML and Web Data. Disponible en: http://www2009.eprints.org/98/1/p971.pdf
POHL, S.; ZOBEL, J.; MOFFAT, A. 2010. Extended Boolean retrieval for systematic biomedical reviews. En: ACSC '10 Proceedings of the Thirty-Third Australasian Conferenc on Computer Science - Volume 102. Disponible en: http://dl.acm.org/citation.cfm?id=1862212
POPESCU, A.M. 2007. Information Extraction from Unstructured Web Text. Disponible en: http://turing.cs.washington.edu/papers/popescu.pdf
PORTER, M.F. 1980, An algorithm for suffix stripping, Program, 14(3) pp130−137.
PORTER, M.F. 2006. The Porter Stemming Algorithm. Disponible en: http://tartarus.org/~martin/PorterStemmer/
PORTER, M.F.; BOULTON, R. 2010. Snowball. Disponible en: http://snowball.tartarus.org/
RAMOS, J. 2003. Using TF-IDF to Determine Word Relevance in Document Queries. En: The First instructional Conference on Machine Learning. Disponible en: https://www.cs.rutgers.edu/~mlittman/courses/ml03/iCML03/papers/ramos.pdf
RIJSBERGEN, C.J. 1979. Information Retrieval. Disponible en: http://www.dcs.gla.ac.uk/Keith/Preface.html
RIJSBERGEN, C.J.; [et.al.] 1979. Information Retrieval. Disponible en: http://www.dcs.gla.ac.uk/Keith/Chapter.2/Ch.2.html
RIJSBERGEN, C.J.; Robertson S.E.; PORTER, M.F. 1980. New models in probabilistic information retrieval. London: British Library. (British Library Research and Development Report, no. 5587).
ROBERTSON, S. 2004. Understanding Inverse Document Frequency: On theoretical arguments for IDF. Journal of Documentation. Vol.60: (5), 503-520 pp.
ROBERTSON, S.E. 1977. The probability ranking principle in IR. Journal of Documentation, 33(4): pp.294-304
ROGERS, J.D.; TANIMOTO, T.T. 1960. A Computer Program for Classifying Plants. Science. pp1115-1118. Disponible: http://www.sciencemag.org/content/132/3434/1115.full.pdf
SALTON, G.; McGILL, M.J. 1983. Introduction to Modern Information Retrieval. New York: Mc Graw Hill.
SALTON, G.; WONG, A.; YANG, C.S. 1975. A vector space model for automatic indexing. En: Communications of the ACM, vol. 18, nr. 11, pp. 613–620. Disponible en: http://www.cs.uiuc.edu/class/fa05/cs511/Spring05/other_papers/p613-salton.pdf
SCHULTZ, C.K. 1968. H.P. Luhn: Pioneer of Information Science - Selected Works. Macmillan.
SEEGER, M. 2010. Building blocks of a scalable web crawler. Department of Computer Science and Media, Stuttgart University. Disponible en: http://blog.marc-seeger.de/assets/papers/thesis_seegerbuilding_blocks_of_a_scalable_webcrawler.pdf
SHARP, M. 2001. Text Mining. En: Seminar in Information Studies, Prof. Tefko Saracevic. Disponible en:
http://comminfo.rutgers.edu/~msharp/text_mining.htm
SHI, S.; XING, F.; ZHU, M. [et.al.] 2009. Anchor Text Extraction for Academic Search. En: Proceedings of the 2009 Workshop on Text Citation Analysis for Scholarly Digital Libraries, ACL-IJCNLP 2009, pages 10-18. Disponible en: http://dl.acm.org/citation.cfm?doid=1699750.1699753
SINGHAL, A. 2001. Modern Information Retrieval: A Brief Overview. En: Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. Disponible en: http://singhal.info/ieee2001.pdf
SPARCK JONES, K. 1979. Search term relevance weighting given little relevante information. Journal of Documentation. 35(1): pp. 30-48
SPARCK JONES, K.; WILLET, P. 1997. Readings in Information Retrieval, San Francisco: Morgan Kaufmann.
URBIZAGÁSTEGUI ALVARADO, R. 1999. Las posibilidades de la ley de zipf en la indización automática. En: B3 Bibliotecología, Bibliotecas, Bibliotecólogos. Disponible en: http://b3.bibliotecologia.cl/ruben2.htm
URBIZAGÁSTEGUI ALVARADO, R.; RESTREPO ARANGO, C. 2011. La ley de Zipf y el punto de transición de Goffman en la indización automática. En: Investigación Bibliotecológica. 25(54): pp. 71-92. Disponible en: http://www.journals.unam.mx/index.php/ibi/article/download/27482/25470
VELASCO, I.; DÍAZ, J.; LLORÉNS, A. 1999. Algoritmo de filtrado multitérmino para la obtención de relaciones jerárquicas en la construcción automática de un tesauro. En: Revista Española de Documentación Científica, 22(1): pp. 34-49 Disponible en: http://redc.revistas.csic.es/index.php/redc/article/view/333/542
VILARES, J. 2008. El Modelo Probabilístico: Características y Modelos derivados. Disponible en: http://www.grupolys.org/docencia/ln/2008-09/tutorial_modelo_probabilistico_apuntes.pdf/tutorial_modelo_probabilistico_apuntes.pdf
WENINGER, T.; HSU, W.H. 2010. Text Extraction from the Web via Text-toTag Ratio. Disponible en: http://www.cs.illinois.edu/homes/weninge1/pubs/WH_TIR08.pdf
YANG, E.Z. 2012. HTML Purifier. Disponible en: http://htmlpurifier.org/
ZAZO, A.F.; BERROCAL, J.L.; FIGUEROLA, C.G.; RODRÍGUEZ, E. 2004. Estudio de usuarios de Datathéke: Propuestas de mejora utilizando expansión de consultas. Disponible: http://reina.usal.es/papers/zazo2004estudio.pdf
ZIPF, G. K. 1949. Human behaviour and the principle of least effort. AddisonWesley