Universidad Complutense de Madrid
E-Prints Complutense

Optimización de la factorización de matrices no negativas en Bioinformática

Impacto

Downloads

Downloads per month over past year



Mejía Roa, Edgardo (2016) Optimización de la factorización de matrices no negativas en Bioinformática. [Thesis]

[img]
Preview
PDF
3MB


Abstract

En los últimos años se ha incrementado el interés de la comunidad científica en la Factorización de matrices no negativas (Non-negative Matrix Factorization, NMF). Este método permite transformar un conjunto de datos de grandes dimensiones en una pequeña colección de elementos que poseen semántica propia en el contexto del análisis. En el caso de Bioinformática, NMF suele emplearse como base de algunos métodos de agrupamiento de datos, que emplean un modelo estadístico para determinar el número de clases más favorable. Este modelo requiere de una gran cantidad de ejecuciones de NMF con distintos parámetros de entrada, lo que representa una enorme carga de trabajo a nivel computacional. La mayoría de las implementaciones de NMF han ido quedando obsoletas ante el constante crecimiento de los datos que la comunidad científica busca analizar, bien sea porque los tiempos de cómputo llegan a alargarse hasta convertirse en inviables, o porque el tamaño de esos datos desborda los recursos del sistema. Por ello, esta tesis doctoral se centra en la optimización y paralelización de la factorización NMF, pero no solo a nivel teórico, sino con el objetivo de proporcionarle a la comunidad científica una nueva herramienta para el análisis de datos de origen biológico. NMF expone un alto grado de paralelismo a nivel de datos, de granularidad variable; mientras que los métodos de agrupamiento mencionados anteriormente presentan un paralelismo a nivel de cómputo, ya que las diversas instancias de NMF que se ejecutan son independientes. Por tanto, desde un punto de vista global, se plantea un modelo de optimización por capas donde se emplean diferentes tecnologías de alto rendimiento...

Resumen (otros idiomas)

In the last few years, the Non-negative Matrix Factorization (NMF) technique has gained a great interest among the scientific community, since it is able to extract interpretable parts from high-dimensional datasets. In Bioinformatics, NMF is used as a basis for clustering methods that make use of a probabilistic model to compute the best suitable number of classes. Nevertheless, this model requires numerous executions of the NMF algorithm with di erent input parameters, which represents a considerable computing load. A number of NMF implementations in di erent languages have been proposed in Bioinformatics and other fields of science, but their usage is limited by the large and constantly growing datasets that require analysis. Furthermore, the required processing time may become unpractical in many scenarios. Therefore, this Ph.D. dissertation is focused on the optimization and parallelization of the NMF algorithm with the aim to provide the Bioinformatics community with a new analysis tool for gene-expression data. Similar to other linear-algebra algorithms, NMF exposes a high degree of data-level parallelism with di erent granularity. In contrast, the clustering methods expose computing-level parallelism, since the required instances of the NMF algorithm are totally independents. Therefore, a layer-based optimization model is proposed in this work, which uses di erent high-performance computing technologies. The lowest or finest-grain level corresponds to matrix products and other algebraic operations that compose the NMF algorithm. A first approach was to make use of ATLAS (Automatically Tuned Linear Algebra Software), a library of optimized routines for algebraic operations. Another strategy was implemented through the high computing capabilities delivered by Graphics Processing Units (GPU). On legacy devices, a GPU-based version of the NMF algorithm was then developed following the Stream Processing paradigm. It was implemented on OpenGL and Cg...

Item Type:Thesis
Additional Information:

Tesis inédita de la Universidad Complutense de Madrid, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática, leída el 2-02-2016

Directors:
DirectorsDirector email
Pascual Montano, Alberto
Tirado Fernández, Francisco
Uncontrolled Keywords:Álgebra lineal, informática
Palabras clave (otros idiomas):Algebras linear, bioinformatics
Subjects:Sciences > Computer science > Bioinformatics
ID Code:38990
Deposited On:02 Sep 2016 12:15
Last Modified:02 Sep 2016 12:15

Origin of downloads

Repository Staff Only: item control page