Publication:
Extracción automática de tópicos en biología a partir de la literatura científica

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2007
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
Los recientes avances en Biología Molecular y en Informática son responsables de la acumulación de muchos y cada vez más complejos tipos de datos. Este incremento se ha visto también reflejado en el elevado número de publicaciones relacionadas. Todo esto se debe a los experimentos a gran escala que ahora se pueden llevar a cabo en este tipo de investigación. Genomas completos pueden ser secuenciados en meses o semanas, métodos computacionales permiten la identificación de miles de genes en el DNA secuenciado y se han desarrollado herramientas que analizan automáticamente las propiedades de los genes y las proteínas. No obstante, no sólo los resultados de los distintos experimentos sirven para encontrar información biológica, actualmente es posible explorar la literatura biomédica en busca de evidencias biológicas. Sin embargo, ese proceso de extracción de información a partir de las publicaciones es, en su gran mayoría, manual. Un grupo de anotadores se encarga de leer todos los artículos científicos, extraer evidencias biológicas y almacenarlas en las bases de datos y ontologías biológicas públicas accesibles a través de internet. Debido a la gran acumulación de documentos científicos, se necesita desarrollar métodos y herramientas que automaticen el proceso de extracción de información. En este contexto se propone un método de extracción de información biológica a partir de la literatura biomédica basado en la extracción de anotaciones enriquecidas en términos encontrados en publicaciones y bases de datos. Un posterior análisis estadístico, utilizando varios test como el de χ2 o el de la distribución hipergeométrica y corrigiendo el problema de la hipoótesis múltiple, nos permitirá evaluar el nivel de relevancia de las anotaciones recuperadas. Esta metodología permite integrar datos obtenidos de la literatura con otras fuentes de información como anotaciones funcionales o reguladores transcripcionales y es de gran utilidad para el descubrimiento de asociaciones entre información biológica de los genes y proteínas y documentos o conjuntos de palabras.
Description
Master en Investigación en Informática, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática , curso 2007-2008
Unesco subjects
Keywords
Citation