Complutense University Library

Evaluación y selección de software: extracción automática de texto en ficheros PDF

Fernández Martínez, Enrique and López Rubio, Alberto (2008) Evaluación y selección de software: extracción automática de texto en ficheros PDF. [Coursework] (Unpublished)

[img] PDF
1MB
View download statistics for this eprint

==>>> Export to other formats

Abstract

Se trata de un proyecto de consultoría/evaluación tecnológica con el objeto de definir un sistema para la extracción "estructurada" del texto de artículos científicos (concretamente en el área de biomedicina) almacenados en formato PDF.
PubMed Central (www.pubmedcentral.nih.gov) es el archivo digital del NIH estadounidense (National Institutes of Health) que ofrece acceso a los artículos publicados en las áreas de biomedicina y ciencias de la vida . PubMed Central ha definido un estandar (en formato DTD) para la estructuración del contenido de dichos artículos. Sin embargo el uso de este estándar no está muy extendido y la mayoría de publicaciones se encuentran en formato PDF. La cantidad de publicaciones hoy en día en tan grande que hace casi imposible encontrar la información que pueda estar relacionada con un proyecto sin un formato estándar. De ahí nace la iniciativa del NIH y la necesidad de una herramienta para convertir documentos en otros formatos a un
mismo estándar.
En la actualidad existen diversos programas para la conversión de archivos en formato PDF a texto, el objetivo del proyecto es determinar cual sería el software más adecuado para esta conversión. En un primer análisis se han realizado varias pruebas con algunos de los programas
más destacados con distinto tipo de licencias. Entre ellos se han elegido los mejores y se ha hecho un análisis más exhaustivo comprobando todas las funcionalidades de cada uno de ellos.
Cabe destacar el XPDF cuyo código fuente está disponible bajo licencia GNU y que permitiría trabajar sobre él para una futura adaptación al formato NCBI DTD.
[ABSTRACT]
The project is about the technology consulting/evaluation for the definition of a “structured” extraction system of text for scientific publications(more exactly in the biomedicine area) stored in PDF format.
PubMed Central (www.pubmedcentral.nih.gov) is the U.S. National Institutes of Health (NIH) digital archive of biomedical and life sciences journal literature. PubMed Central has established a standard (in DTD format) for the organization of article contents. However the use
of this standard is not very spread and nowadays most of publications are in PDF format. The quantity of publications is so huge that make it impossible to find the related information to a project without a standard format. This was the reason for the NIH initiative and the need of a
tool to convert documents in other formats to a common standard.
Nowadays there are different programs for the conversion of PDF formatted files to text files,the goal of this project is to determine wich would be the most relevant software to make this convertion. In a first analysis we have done different tests with some of the best programs with
different licence type. Among them we have chosen the bests and make a more detailed test checking all available functions.
It is worth pointing out XPDF that its source code is available under the GNU licence so it would allow to work on it for a future adaptation to the NCBI DTD format.

Item Type:Coursework
Additional Information:Trabajo de clase de la asignatura Sistemas Informáticos (Facultad de Informática, Curso 2007-2008)
Uncontrolled Keywords:Consultoría, Extracción, Conversión, Automática, Ficheros, Texto,PDF, TXT, XPDF
Subjects:Sciences > Computer science > Expert systems (Computer science)
ID Code:9122
Deposited On:09 Jun 2009 11:34
Last Modified:09 Jun 2009 11:34

Repository Staff Only: item control page