Complutense University Library

Estrategia de solución al problema de la anotación de secuencias de ADN mediante la metodología CommonKADS

Dias Xavier, Daniela (2011) Estrategia de solución al problema de la anotación de secuencias de ADN mediante la metodología CommonKADS. [Trabajo Fin de Máster]

[img]
Preview
PDF
3MB
View download statistics for this eprint

==>>> Export to other formats

Abstract

La Bioinformática ha surgido de la unión entre la Informática y la Biología con el objetivo de tratar el gran volumen de datos biológicos generados en los últimos años. La genómica, uno de los campos de la Bioinformática, es responsable del análisis del genoma, o sea, de las secuencias de ADN que componen el material hereditario de los organismos.
Uno de los grandes desafíos de la genómica es la anotación de genes. Esta tarea consiste en encontrar los genes existentes en una determinada secuencia de ADN para asignarles características biológicas. La anotación de genes debe ser lo más exacta y fiable posible,
pues al inferir e inserir una anotación errónea en una base de datos, este error puede ser propagado a futuras anotaciones. Con el objetivo de facilitar este proceso existe una gran variedad de programas y pipelines bioinformáticos disponibles.
Con el advenimiento de las nuevas tecnologías de secuenciación, se ha reducido el coste del proceso de secuenciación y, consecuentemente, se ha generado un aumento significativo en el volumen de datos producidos. Analizar estos datos es una necesidad, pero no se puede hacer dependiendo de la intervención humana, debido al cuello de botella generado. Una solución para este problema es desarrollar Sistemas Expertos capaces de anotar automáticamente las secuencias emulando la intervención del especialista en puntos clave del proceso.
Actualmente, los Sistemas Expertos de anotación disponibles fueron desarrollados para anotar genomas completos. Sin embargo, existe una gran demanda por parte de la Comunidad
Científica por anotar secuencias de ADN de organismos cuyo genoma completo no ha sido secuenciado. Desarrollar un SE para tal nalidad puede contribuir a la mejora de la
calidad de la información a incluir en las Bases de Datos génicas.
La creación de un SE para la anotación de secuencias de ADN no es una tarea fácil debido al gran conocimiento del dominio requerido, así como a la comprensión del razonamiento a aplicar como base de inferencia. Por ello, se hace absolutamente necesaria la creación de un marco general capaz de solventar la problemática antes mencionada. Al tratarse de un problema centrado en la Ingeniería del Conocimiento, la metodología CommonKADS, como
estrategia de organización del conocimiento aporta una solución metodológica de relevancia.
En este trabajo se realiza un modelado del problema bajo el paradigma CommonKADS donde se identifica la estrategia a seguir ante un problema de tal envergadura y se establecen
las bases metodológicas para abordar el problema de forma general con posibilidades de aplicación a cualquier sistema independientemente de su complejidad. La creación del
mencionado marco constituye el objetivo principal del proyecto que se plantea, verificando su validez mediante el diseño de un SE de esta naturaleza.
[ABSTRACT]
Bioinformatics arises from the union of Informatics with Biology aiming to deal with the huge amount of biological data generated in the last years. Genomics, one of the fields of Bioinformatics, is responsible for the analysis of the genome, that is, the DNA sequences that compose the organisms' hereditary material.
One of genomics biggest challenges is gene annotation. This task consist in find the genes that exist within a DNA sequence and assign them biological features. The gene annotation should be as accurate and reliable as possible, because when a missannotation is generated and uploaded into a Database, this error could be propagated to future annotations. In order to facilitate the annotation process a big variety of Bioinformatics programs and pipelines
is available.
With the advent of new sequencing technologies the cost of sequencing has decreased,increasing significantly the amount of data produced. Analyze all this data is a necessity, but it is important to avoid the bottle neck created by human intervention during the process.
One solution to this problem is to develop Expert Systems that are able to annotate gene automatically and emulate the expert involvement in certain key points of the process.
Currently the Expert Systems for annotation that are available were developed to deal with the whole genome. Nevertheless there is a great demand by the Scientific Community to annotate DNA sequences of organisms whose whole genome has not been sequenced.
Creating an Expert System capable of annotating DNA sequences without considering the genome context would contribute to improve the quality of the information to be uploaded into gene Databases.
Developing an Expert System is not an easy job because it requires a huge knowledge of the domain and the understanding of the reasoning process applied as base of inference.
Thus, it is really necessary to create a general framework capable of solving the aforementioned problem. As this problem is centered in Knowledge Engineering using the CommonKADS methodology like an organization strategy contributes to a relevant methodological solution.
In this work we model the sequence annotation problem applying the CommonKADS paradigm. Through this methodology it is possible to identify the strategy that best ts
the problem mentioned before. Moreover, it establishes methodological bases to tackle the problem in a general way, allowing them to be applied to any problem independently of its complexity. The main goal of the project presented here is to create the mentioned
framework, verifying its validity through the design of an Expert System for annotation


Item Type:Trabajo Fin de Máster
Additional Information:

Máster en Investigación en Informática, Facultad de Informática, Departamento de Ingeniería del Software e Inteligencia Artificial, curso 2010-2011

Directors:
DirectorsDirector email
Pajares Martinsanz, Gonzalo
Morán Abad, Federico
Uncontrolled Keywords:Bioinformática, Sistema experto, Anotación de genes, Secuencia de ADN, CommonKADS,Extracción del conocimiento, Bioinformatics, Expert System, Gene annotation, DNA sequence, Knowledge elicitation
Subjects:Sciences > Computer science > Bioinformatics
ID Code:13062
Deposited On:24 Aug 2011 11:04
Last Modified:06 Feb 2014 09:39

Repository Staff Only: item control page