Complutense University Library

Comparación de secuencias genómicas e identificación de proteínas utilizando FPGAS

López Fernández, Javier and Peris Iniesta, Sergio and Rubio Camarillo, Miriam (2005) Comparación de secuencias genómicas e identificación de proteínas utilizando FPGAS. [Coursework] (Unpublished)

[img]
Preview
PDF
593kB
View download statistics for this eprint

==>>> Export to other formats

Abstract

La comparación de cadenas es una parte importante de muchos programas y aplicaciones, en particular, es creciente su uso en el terreno de la biología y la investigación científica. Miles de secuencias provenientes de enormes bases de datos de contenido genético son diariamente comparadas con este motivo. Por ello, se hace necesaria la utilización de algoritmos rápidos, y no sólo eso, sino que sus resultados sean lo más fiables posible.
Los algoritmos existentes actualmente se basan en la búsqueda exacta, es decir, en comprobar si una cadena es igual a otra dada, o en la búsqueda inexacta, consistente
en hallar un coste o valoración que indicaría lo que una cadena difiere de otra. El algoritmo de Smith-Waterman pertenece a este segundo grupo y es el que hemos
elegido para implementar la comparación entre secuencias de ADN, dado que es el mejor dentro de los algoritmos de búsqueda inexacta.
Utilizando Smith-Waterman quedaría resuelto el problema de la fiabilidad, pero también es muy importante la velocidad, ya que cuanto más rápido se obtenga el resultado, el trabajo de los investigadores o programas también se acelerará y por lo tanto mejorará. Una solución software del algoritmo se obtendría aproximadamente en un tiempo N *M, siendo N y M las longitudes de las cadenas a comparar. Mientras que una solución hardware aprovechando el paralelismo que aportan arquitecturas como los arrays sistólicos podría obtenerla en N + M. Con lo cual, si las cadenas son largas, como es el caso de las secuencias de ADN, la mejora es enormemente visible. Por ello, para
implementar el sistema hemos elegido la opción hardware y para hacerlo utilizaremos FPGA’s.
[ABSTRACT]
String comparison is an important part of many programs and applications. Its use is especially growing in biology and scientific research. For this reason, thousands of sequences coming from enormous data bases with genetic contents, are compared daily. Therefore fast algorithms with reliable results are necessary.
The currently existent algorithms are based either on exact or on inexact search.
Exact search verifies if a string is equal to another given one, and inexact search consists in finding a cost or valuation which indicates the resemblance between two
strings. The Smith-Waterman algorithm is based on inexact search and is the one we have chosen to implement the comparison of DNA strings given it is the best choice for
inexact search.
By using Smith-Waterman the reliability problem is solved, but the speed is also very important due to the fact that the faster the result is obtained, the faster the work of
researchers and programs is done and therefore improves. A software solution of the algorithm could be obtained in approximately N*M, where N and M are the lengths of
the strings to compare. Meanwhile, a hardware solution could be obtained in N+M, taking advantage of the paralelism architectures, such as systolic arrays, offer. Therefore the improvement on large strings, for instance DNA sequences, is clearly visible.
Because of this, to implement the system we have chosen the hardware approach using FPGA’s.

Item Type:Coursework
Additional Information:Trabajo de clase de la asignatura Sistemas Informáticos (Facultad de Informática, Curso 2004-2005)
Uncontrolled Keywords:FPGA, Array sistólico, Smith-Waterman, Búsqueda genómica
Subjects:Sciences > Computer science > Expert systems (Computer science)
ID Code:8945
Deposited On:09 Jul 2009 15:42
Last Modified:06 Feb 2014 08:17

Repository Staff Only: item control page