Publication:
Estrategia de solución al problema de la anotación de secuencias de ADN mediante la metodología CommonKADS

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2011
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
La Bioinformática ha surgido de la unión entre la Informática y la Biología con el objetivo de tratar el gran volumen de datos biológicos generados en los últimos años. La genómica, uno de los campos de la Bioinformática, es responsable del análisis del genoma, o sea, de las secuencias de ADN que componen el material hereditario de los organismos. Uno de los grandes desafíos de la genómica es la anotación de genes. Esta tarea consiste en encontrar los genes existentes en una determinada secuencia de ADN para asignarles características biológicas. La anotación de genes debe ser lo más exacta y fiable posible, pues al inferir e inserir una anotación errónea en una base de datos, este error puede ser propagado a futuras anotaciones. Con el objetivo de facilitar este proceso existe una gran variedad de programas y pipelines bioinformáticos disponibles. Con el advenimiento de las nuevas tecnologías de secuenciación, se ha reducido el coste del proceso de secuenciación y, consecuentemente, se ha generado un aumento significativo en el volumen de datos producidos. Analizar estos datos es una necesidad, pero no se puede hacer dependiendo de la intervención humana, debido al cuello de botella generado. Una solución para este problema es desarrollar Sistemas Expertos capaces de anotar automáticamente las secuencias emulando la intervención del especialista en puntos clave del proceso. Actualmente, los Sistemas Expertos de anotación disponibles fueron desarrollados para anotar genomas completos. Sin embargo, existe una gran demanda por parte de la Comunidad Científica por anotar secuencias de ADN de organismos cuyo genoma completo no ha sido secuenciado. Desarrollar un SE para tal nalidad puede contribuir a la mejora de la calidad de la información a incluir en las Bases de Datos génicas. La creación de un SE para la anotación de secuencias de ADN no es una tarea fácil debido al gran conocimiento del dominio requerido, así como a la comprensión del razonamiento a aplicar como base de inferencia. Por ello, se hace absolutamente necesaria la creación de un marco general capaz de solventar la problemática antes mencionada. Al tratarse de un problema centrado en la Ingeniería del Conocimiento, la metodología CommonKADS, como estrategia de organización del conocimiento aporta una solución metodológica de relevancia. En este trabajo se realiza un modelado del problema bajo el paradigma CommonKADS donde se identifica la estrategia a seguir ante un problema de tal envergadura y se establecen las bases metodológicas para abordar el problema de forma general con posibilidades de aplicación a cualquier sistema independientemente de su complejidad. La creación del mencionado marco constituye el objetivo principal del proyecto que se plantea, verificando su validez mediante el diseño de un SE de esta naturaleza. [ABSTRACT] Bioinformatics arises from the union of Informatics with Biology aiming to deal with the huge amount of biological data generated in the last years. Genomics, one of the fields of Bioinformatics, is responsible for the analysis of the genome, that is, the DNA sequences that compose the organisms' hereditary material. One of genomics biggest challenges is gene annotation. This task consist in find the genes that exist within a DNA sequence and assign them biological features. The gene annotation should be as accurate and reliable as possible, because when a missannotation is generated and uploaded into a Database, this error could be propagated to future annotations. In order to facilitate the annotation process a big variety of Bioinformatics programs and pipelines is available. With the advent of new sequencing technologies the cost of sequencing has decreased,increasing significantly the amount of data produced. Analyze all this data is a necessity, but it is important to avoid the bottle neck created by human intervention during the process. One solution to this problem is to develop Expert Systems that are able to annotate gene automatically and emulate the expert involvement in certain key points of the process. Currently the Expert Systems for annotation that are available were developed to deal with the whole genome. Nevertheless there is a great demand by the Scientific Community to annotate DNA sequences of organisms whose whole genome has not been sequenced. Creating an Expert System capable of annotating DNA sequences without considering the genome context would contribute to improve the quality of the information to be uploaded into gene Databases. Developing an Expert System is not an easy job because it requires a huge knowledge of the domain and the understanding of the reasoning process applied as base of inference. Thus, it is really necessary to create a general framework capable of solving the aforementioned problem. As this problem is centered in Knowledge Engineering using the CommonKADS methodology like an organization strategy contributes to a relevant methodological solution. In this work we model the sequence annotation problem applying the CommonKADS paradigm. Through this methodology it is possible to identify the strategy that best ts the problem mentioned before. Moreover, it establishes methodological bases to tackle the problem in a general way, allowing them to be applied to any problem independently of its complexity. The main goal of the project presented here is to create the mentioned framework, verifying its validity through the design of an Expert System for annotation
Description
Máster en Investigación en Informática, Facultad de Informática, Departamento de Ingeniería del Software e Inteligencia Artificial, curso 2010-2011
UCM subjects
Unesco subjects
Keywords
Citation