Publication:
Motores de Búsqueda usando UPC

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2009
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
En este documento se describen aspectos teóricos y prácticos sobre motores de búsqueda paralelos. El objetivo principal de este trabajo consiste en el diseño e implementación en UPC de un motor de búsqueda para operaciones de tipo OR que sea capaz de obtener un buen redimiento en escenarios de tráfico elevado. Para ello el documento comienza con una introducción a los sistemas de recuperación de información. Se incluye un breve paseo por la historia de los métodos de clasificación y ordenación de colecciones de documentos por el ser humano, así como una descripción más detallada del modelo general de sistemas de búsqueda por computador. Tambien mencionaremos aspectos sobre recuperación de información de forma distribuida. La introducción teórica continúa con la presentación de los diversos modelos de programación paralela, centrándonos en el modelo PGAS y en concreto en el lenguaje UPC que ha sido el elegido para la parte práctica del proyecto. Este documento incluye además información detallada sobre la implementación realizada de un motor de búsqueda centrándose en varios aspectos esenciales: modelos de datos, algoritmos de ranking, comunicación entre nodos y flujo del programa. El análisis del diseño se acompaña de varias pruebas de rendimiento diseñadas para medir diversos parámetros de la implementación. Finalmente se plantean una serie de conclusiones sobre diversos aspectos encontrados durante el desarrollo del proyecto, así como diversos manuales que contienen la información necesaria para poder replicar los entornos de trabajo utilizados. [ABSTRACT] This document describes theorical and practical aspects about parallel search engines. The aim of this work consists in the design and implementation in UPC of a search engine for OR-type operations being able to offer good performance in high traffic scenarios. To accomplish that the document begins with an introduction to information retrieval sistems. It includes a brief walkthrough about the history of methods used by people to classify and order collections of document, and a more detailed description about the general model for computer search systems. It also explains some aspects about distribuited information retrieval. A presentation of various parallel programming models follows the theorical introduction. We will focus on PGAS model and, specifically, on UPC language which has been our choice to implement the practical part of this project. This document also includes detailed information about our search engine implementation, focusing on various essential aspects: data models,ranking algorithms, node communication and program flow. The analysis of the design is followed with some performance tests aimed at measure various parameters of the implementation. Finally it exposes a series of conclusions about various aspects we met during the development of the project and some manuals which contain the necessary information needed to be able to replicate the work environments we used.
Description
Trabajo de clase de la asignatura Sistemas Informáticos (Facultad de Informática, Curso 2008-2009)
Unesco subjects
Keywords
Citation