Complutense University Library

Desarrollo de un sistema de indexación y búsqueda sobre la base de datos de biomedicina MEDLINE

Fernández García, Fabián and Azancot Chocrón, Moisés (2007) Desarrollo de un sistema de indexación y búsqueda sobre la base de datos de biomedicina MEDLINE. [Coursework] (Unpublished)

[img] PDF
354kB
View download statistics for this eprint

==>>> Export to other formats

Abstract

Nuestro proyecto consiste en crear dos sistemas de indexación y búsqueda sobre la base de datos de biomedicina MEDLINE, con dos tecnologías distintas de manera que se pueda evaluar cual de ellas es la más adecuada para tratar con MEDLINE.
MEDLINE es la mayor base de datos de referencias bibliograficas en el área biomédica, tiene mas de 15 millones de referencias recopiladas por la Librería
Nacional de Medicina Estadounidense (NML) desde el año 1965. MEDLINE se distribuye en formato XML y ocupa alrededor de 55 GB, lo cual hace imprescindible una evaluación del rendimiento a la hora de elegir una tecnología para manejar los datos.
Las tecnologías elegidas son Lucene y PostgreSQL. PostgreSQL es un sistema de bases de datos relacional similar MySQL o Oracle, pero suele ser mas robusta que
estas cuando trata con bases de datos muy grandes y Lucene es una Scalable Information Retrieval Library (IR) implementada en java y parte de la familia de proyectos de Apache Jakarta, es decir, Lucene crea bases de datos totalmente textuales y permite realizar búsquedas sobre ellas.

[ABSTRACT]
The current project consists of creating two indexing and searching systems over the biomedicine database MEDLINE, with two different technologies in order to evaluate which one of them is more suited to deal with MEDLINE. MEDLINE is
the largest database of bibliography references in the biomedical area; it has more than fifteen millions of references collected by the United States National Medicine
Library (NML) since year 1965. MEDLINE is distributed in XML format and its size is about fifty five Gigabytes, which makes an evaluation of the performance of each technology definitely essential to make a proper choice to handle the data processing.
The chosen technologies are Lucene and PostgreSQL. PostgreSQL is a system of relational databases similar to MySQL or Oracle, but tends to be stronger when processing massive databases. Lucene is one Scalable Information Retrieval Library (IR) implemented using Java and part of the projects family known as Apache Jakarta, that is to say Lucene create fully textual databases and allows performing searches through them.

Item Type:Coursework
Additional Information:Trabajo de la asignatura Sistemas Informáticos (Facultad de Informática, Curso 2006-2007)
Uncontrolled Keywords:Sistemas de indexación
Subjects:Sciences > Computer science > Expert systems (Computer science)
ID Code:9148
Deposited On:02 Jul 2009 10:44
Last Modified:02 Jul 2009 10:44

Repository Staff Only: item control page