Complutense University Library

Extracción automática de tópicos en biología a partir de la literatura científica

Nogales Cadenas, Rubén (2007) Extracción automática de tópicos en biología a partir de la literatura científica. Tesis Master's thesis.

[img]
Preview
PDF
1MB
View download statistics for this eprint

==>>> Export to other formats

Abstract

Los recientes avances en Biología Molecular y en Informática son responsables de la acumulación de muchos y cada vez más complejos tipos de datos. Este incremento se ha visto también reflejado en el elevado número de publicaciones relacionadas. Todo esto se debe a los experimentos a gran escala que ahora se pueden llevar a cabo en este tipo de investigación. Genomas completos
pueden ser secuenciados en meses o semanas, métodos computacionales permiten la identificación de miles de genes en el DNA secuenciado y se han desarrollado herramientas que analizan automáticamente las propiedades
de los genes y las proteínas.
No obstante, no sólo los resultados de los distintos experimentos sirven para encontrar información biológica, actualmente es posible explorar la literatura biomédica en busca de evidencias biológicas. Sin embargo, ese proceso de extracción de información a partir de las publicaciones es, en su gran mayoría, manual. Un grupo de anotadores se encarga de leer todos los artículos científicos, extraer evidencias biológicas y almacenarlas en las bases de datos y ontologías biológicas públicas accesibles a través de internet.
Debido a la gran acumulación de documentos científicos, se necesita desarrollar métodos y herramientas que automaticen el proceso de extracción de información.
En este contexto se propone un método de extracción de información biológica a partir de la literatura biomédica basado en la extracción de anotaciones enriquecidas en términos encontrados en publicaciones y bases de datos. Un posterior análisis estadístico, utilizando varios test como el de χ2 o el de la distribución hipergeométrica y corrigiendo el problema de la hipoótesis múltiple, nos permitirá evaluar el nivel de relevancia de las anotaciones recuperadas. Esta metodología permite integrar datos obtenidos de la literatura con otras fuentes de información como anotaciones funcionales o reguladores transcripcionales y es de gran utilidad para el descubrimiento de asociaciones entre información biológica de los genes y proteínas y documentos o conjuntos de palabras.

Item Type:Thesis (Master's thesis)
Additional Information:Master en Investigación en Informática, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática , curso 2007-2008
Directors:
DirectorsDirector email
Pascual Montano, Alberto UNSPECIFIED
Uncontrolled Keywords:Minería de datos, Minería de Textos, Extracción de la Información, Bioinformática, Reglas asociativas, Bases de datos, Análisis estadístico
Subjects:Sciences > Computer science > Databases
ID Code:10280
Deposited On:17 Mar 2010 09:56
Last Modified:06 Feb 2014 08:40

Repository Staff Only: item control page