Publication:
Minería de texto aplicada a bioinformática funcional

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2013-02-01
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Complutense de Madrid
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
Esta tesis doctoral propone metodologías para solucionar diversos problemas en el campo de la minería de datos biomédica. Aunque puedan parecer que no están conectados cuando descritos individualmente, en su conjunto, consisten en pasos necesarios para la automatización de los procesos de extracción automática de conocimiento a partir de la literatura biomédica. Más específicamente, esta tesis trata de las tareas de reconocimiento de entidades biológicas, extracción de relaciones y normalización de menciones. Las metodologías que proponemos para las tareas de reconocimiento de entidades biológicas y extracción de relaciones utiliza el razonamiento basado en casos, parte del paradigma de aprendizaje automático. Para la extracción de entidades biológicas, mas específicamente de genes/proteínas, evaluamos los métodos con los datos disponibles en la competición de BioCreative II. Como resultado de este trabajo, hemos desarrollado una librería Java llamada Moara, que incluye la implementación de estos métodos y la posibilidad de entrenarlos con datos distintos del utilizado en el desarrollo del sistema. Nuestros métodos también han sido integrados a la plataforma U-Compare, que permite la utilización inmediata de nuestros métodos además de su comparación con otros sistemas. También hemos aplicado el razonamiento basado en casos para la extracción de eventos biológicos, que consiste en un previo reconocimiento de los términos claves de un evento (e.g., “expresión”), seguido de la extracción de sus argumentos (e.g., proteína, localización). Nuestros métodos han sido evaluados con los datos disponibles en la competición de BioNLP 2009 Event Extraction, en la que ha participado una primera versión del sistema. Esta metodología también ha sido integrada a la plataforma U-Compare como parte de un servidor que incluye algunos de los participantes de la competición. También hemos realizado experimentos con el corpus de BioText para la extracción de asociaciones entre enfermedades y tratamientos, como forma a demonstrar que nuestros métodos también se comportan satisfactoriamente para otros tipos de relaciones biomédicas. Finalmente, hemos propuesto metodologías para la normalización de menciones de genes/proteínas. Nuestros métodos están basados en una comparación exacta de un diccionario de sinónimos con las menciones y en algoritmos de aprendizaje automático, además de la desambiguación de los identificadores. Una evaluación y los resultados son presentados para cada una de las metodologías utilizando los datos disponibles en las dos primeras ediciones de la competición BioCreative. Los documentos se refieren a cuatro organismos: humano, ratón, mosca y levadura. Los métodos desarrollados para la normalización de genes/proteínas también están incluidos en la librería Java de Moara, que además permite el entrenamiento del sistema con nuevos organismos. [ABSTRACT]This thesis describes new methodologies proposed to solve several state of the art biomedical text mining problems, that when described individually seems unconnected but altogether represent necessary steps in the automatic process to extract knowledge from biomedical literature. In particular the thesis is focused on the tasks of named entity recognition, relationship extraction and entity mention normalization. The methodologies we propose for the tasks of recognition of entities and relationship extraction use the case-based reasoning approach, which is part of the machine learning paradigm. For the named-entity recognition task, we apply these methods for the extraction of genes and proteins, which are evaluated using the BioCreative II Gene Mention corpus. As result of this work, we have developed the Moara Java library, which include the implementation of our methods and the possibility of training them with extra corpora. Our methods have also been integrated into the U-Compare framework, which allow their instant use and the comparison to other systems. We also apply case-based reasoning for the biomedical events extraction, which include first the recognition of the event triggers (e.g., “expression”, “regulates”), followed by the extraction of the arguments which compose the event, such as theme, cause and location. For the extraction of biomedical events, the methods were evaluated using the datasets available for the BioNLP 2009 Event Extraction challenge and our first approach participated in the competition. Our methodology has also been integrated into the U-Compare framework as part of a meta-server with some of the participants of the challenge. Finally, we have also carried out experiments with the BioText corpus for the extraction of relationships between diseases and treatments, in order to prove that our methods also perform satisfactorily for a different type of relationship. We also propose methodologies for the normalization of the genes and proteins mentions to their identifiers. Our approaches are based on dictionary lookup and machine learning algorithms and they include the disambiguation of the identifiers. Evaluation and results are also presented for each approach using datasets available in two of the BioCreative challenges for four organisms: yeast, mouse, fly and human. The methods developed for the normalization of gene mentions are also included in the Moara Java library, adding the possibility of training them with extra organisms.
Description
Tesis inédita de la Universidad Complutense de Madrid, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática, leída el 19-10-2012
UCM subjects
Unesco subjects
Keywords
Citation
Collections