Publication:
Comparación de secuencias genómicas e identificación de proteínas utilizando FPGAS

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2005
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
La comparación de cadenas es una parte importante de muchos programas y aplicaciones, en particular, es creciente su uso en el terreno de la biología y la investigación científica. Miles de secuencias provenientes de enormes bases de datos de contenido genético son diariamente comparadas con este motivo. Por ello, se hace necesaria la utilización de algoritmos rápidos, y no sólo eso, sino que sus resultados sean lo más fiables posible. Los algoritmos existentes actualmente se basan en la búsqueda exacta, es decir, en comprobar si una cadena es igual a otra dada, o en la búsqueda inexacta, consistente en hallar un coste o valoración que indicaría lo que una cadena difiere de otra. El algoritmo de Smith-Waterman pertenece a este segundo grupo y es el que hemos elegido para implementar la comparación entre secuencias de ADN, dado que es el mejor dentro de los algoritmos de búsqueda inexacta. Utilizando Smith-Waterman quedaría resuelto el problema de la fiabilidad, pero también es muy importante la velocidad, ya que cuanto más rápido se obtenga el resultado, el trabajo de los investigadores o programas también se acelerará y por lo tanto mejorará. Una solución software del algoritmo se obtendría aproximadamente en un tiempo N *M, siendo N y M las longitudes de las cadenas a comparar. Mientras que una solución hardware aprovechando el paralelismo que aportan arquitecturas como los arrays sistólicos podría obtenerla en N + M. Con lo cual, si las cadenas son largas, como es el caso de las secuencias de ADN, la mejora es enormemente visible. Por ello, para implementar el sistema hemos elegido la opción hardware y para hacerlo utilizaremos FPGA’s. [ABSTRACT] String comparison is an important part of many programs and applications. Its use is especially growing in biology and scientific research. For this reason, thousands of sequences coming from enormous data bases with genetic contents, are compared daily. Therefore fast algorithms with reliable results are necessary. The currently existent algorithms are based either on exact or on inexact search. Exact search verifies if a string is equal to another given one, and inexact search consists in finding a cost or valuation which indicates the resemblance between two strings. The Smith-Waterman algorithm is based on inexact search and is the one we have chosen to implement the comparison of DNA strings given it is the best choice for inexact search. By using Smith-Waterman the reliability problem is solved, but the speed is also very important due to the fact that the faster the result is obtained, the faster the work of researchers and programs is done and therefore improves. A software solution of the algorithm could be obtained in approximately N*M, where N and M are the lengths of the strings to compare. Meanwhile, a hardware solution could be obtained in N+M, taking advantage of the paralelism architectures, such as systolic arrays, offer. Therefore the improvement on large strings, for instance DNA sequences, is clearly visible. Because of this, to implement the system we have chosen the hardware approach using FPGA’s.
Description
Trabajo de clase de la asignatura Sistemas Informáticos (Facultad de Informática, Curso 2004-2005)
Unesco subjects
Keywords
Citation