Universidad Complutense de Madrid
E-Prints Complutense

Minería de texto aplicada a bioinformática funcional

Impacto

Downloads

Downloads per month over past year



Lara Neves, Mariana (2013) Minería de texto aplicada a bioinformática funcional. [Thesis]

[img]
Preview
PDF
6MB


Abstract

Esta tesis doctoral propone metodologías para solucionar diversos problemas en el campo de la minería de datos biomédica. Aunque puedan parecer que no están conectados cuando descritos individualmente, en su conjunto, consisten en pasos necesarios para la automatización de los procesos de extracción automática de conocimiento a partir de la literatura biomédica. Más específicamente, esta tesis trata de las tareas de reconocimiento de entidades biológicas, extracción de relaciones y normalización de menciones. Las metodologías que proponemos para las tareas de reconocimiento de entidades biológicas y extracción de relaciones utiliza el razonamiento basado en casos, parte del paradigma de aprendizaje automático. Para la extracción de entidades biológicas, mas específicamente de genes/proteínas, evaluamos los métodos con los datos disponibles en la competición de BioCreative II. Como resultado de este trabajo, hemos desarrollado una librería Java llamada Moara, que incluye la implementación de estos métodos y la posibilidad de entrenarlos con datos distintos del utilizado en el desarrollo del sistema. Nuestros métodos también han sido integrados a la plataforma U-Compare, que permite la utilización inmediata de nuestros métodos además de su comparación con otros sistemas. También hemos aplicado el razonamiento basado en casos para la extracción de eventos biológicos, que consiste en un previo reconocimiento de los términos claves de un evento (e.g., “expresión”), seguido de la extracción de sus argumentos (e.g., proteína, localización). Nuestros métodos han sido evaluados con los datos disponibles en la competición de BioNLP 2009 Event Extraction, en la que ha participado una primera versión del sistema. Esta metodología también ha sido integrada a la plataforma U-Compare como parte de un servidor que incluye algunos de los participantes de la competición. También hemos realizado experimentos con el corpus de BioText para la extracción de asociaciones entre enfermedades y tratamientos, como forma a demonstrar que nuestros métodos también se comportan satisfactoriamente para otros tipos de relaciones biomédicas. Finalmente, hemos propuesto metodologías para la normalización de menciones de genes/proteínas. Nuestros métodos están basados en una comparación exacta de un diccionario de sinónimos con las menciones y en algoritmos de aprendizaje automático, además de la desambiguación de los identificadores. Una evaluación y los resultados son presentados para cada una de las metodologías utilizando los datos disponibles en las dos primeras ediciones de la competición BioCreative. Los documentos se refieren a cuatro organismos: humano, ratón, mosca y levadura. Los métodos desarrollados para la normalización de genes/proteínas también están incluidos en la librería Java de Moara, que además permite el entrenamiento del sistema con nuevos organismos.
[ABSTRACT]This thesis describes new methodologies proposed to solve several state of the art biomedical text mining problems, that when described individually seems
unconnected but altogether represent necessary steps in the automatic process to extract knowledge from biomedical literature. In particular the thesis is focused on
the tasks of named entity recognition, relationship extraction and entity mention normalization.
The methodologies we propose for the tasks of recognition of entities and relationship extraction use the case-based reasoning approach, which is part of the machine learning paradigm. For the named-entity recognition task, we apply these methods for the extraction of genes and proteins, which are evaluated using the BioCreative II Gene Mention corpus. As result of this work, we have developed
the Moara Java library, which include the implementation of our methods and the possibility of training them with extra corpora. Our methods have also been integrated into the U-Compare framework, which allow their instant use and the
comparison to other systems. We also apply case-based reasoning for the biomedical events extraction, which
include first the recognition of the event triggers (e.g., “expression”, “regulates”), followed by the extraction of the arguments which compose the event, such as
theme, cause and location. For the extraction of biomedical events, the methods were evaluated using the datasets available for the BioNLP 2009 Event Extraction challenge and our first approach participated in the competition. Our methodology has also been integrated into the U-Compare framework as part of a meta-server with some of the participants of the challenge. Finally, we have also carried out experiments with the BioText corpus for the extraction of relationships between diseases and treatments, in order to prove that our methods also perform
satisfactorily for a different type of relationship.
We also propose methodologies for the normalization of the genes and proteins mentions to their identifiers. Our approaches are based on dictionary lookup and
machine learning algorithms and they include the disambiguation of the identifiers. Evaluation and results are also presented for each approach using datasets available in two of the BioCreative challenges for four organisms: yeast, mouse, fly and human. The methods developed for the normalization of gene mentions are also
included in the Moara Java library, adding the possibility of training them with extra organisms.


Item Type:Thesis
Additional Information:

Tesis inédita de la Universidad Complutense de Madrid, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática, leída el 19-10-2012

Directors:
DirectorsDirector email
Pascual Montano, Alberto
Uncontrolled Keywords:Bioinformática, Minería de datos, Bioinformatics, Data mining
Subjects:Sciences > Computer science > Bioinformatics
ID Code:18152
Deposited On:04 Feb 2013 08:30
Last Modified:07 Feb 2014 10:00

Origin of downloads

Repository Staff Only: item control page