Técnicas de aprendizaje automático para la predicción de bacteriemias hospitalarias

Impacto

Downloads

Downloads per month over past year



Gómez Rodríguez, Diego and Ramos Fuentes, Víctor (2020) Técnicas de aprendizaje automático para la predicción de bacteriemias hospitalarias. [Trabajo Fin de Grado]

[thumbnail of RAMOS_FUENTES_Tecnicas_de_aprendizaje_automatico_para_la_prediccion_de_bacteriemias_hospitalarias_4398577_1917510178.pdf]
Preview
PDF
Creative Commons Attribution Non-commercial.

1MB


Abstract

El objetivo de este proyecto es acelerar el proceso de detección de bacteriemia así como su diagnóstico, ya que una rápida detección de la misma permite un tratamiento temprano, que frena la evolución de la bacteriemia aumentando significativamente la probabilidad de recuperación del paciente. En este proyecto buscaremos un modelo clasificador basado en algoritmos de aprendizaje automático con una tasa de acierto considerable que permita detectar qué pacientes pueden presentar bacteriemia. Actualmente, se utilizan los hemocultivos para la detección de bacteriemia en la sangre del paciente. Empezaremos limpiando los datos aportados por el Hospital Universitario de Fuenlabrada, clasificando qué atributos resultan más interesantes para el estudio y, posteriormente, los someteremos a una normalización buscando que no haya atributos que se sobrepongan a otros debido a la naturaleza de sus magnitudes. También, aplicaremos las técnicas: separate class mehtod, complete case data, imputación de datos ausentes y descarte de atributos y/o casos de estudio, con la finalidad de gestionar los datos ausentes. Analizaremos los resultados y escogeremos la mejor técnica para el tratamiento de este tipo de datos. Para intentar mejorar el modelo, estudiaremos las técnicas auxiliares de principal component analisys y one hot encoder. Finalmente, aplicaremos los algoritmos de aprendizaje automático support vector machine, random forest y k-nearest neighbors para generar diferentes modelos de clasificación y estudiaremos cuál de ellos se ajusta mejor a los datos del estudio y obtiene una tasa de acierto más elevada.

Resumen (otros idiomas)

In this project we want to accelerate bacteremia detection process and its diagnosis. A quick detection allows for an early treatment, which will reduce the evolution rate. In this project, we will look for a classifier model based on machine learning algorithms with a remarkable accuracy rate that allows for detecting which patients will present bacteremia. Nowadays, doctors use blood cultures to detect bacteremia in the patient’s blood. We will start by cleaning up the data provided by Fuenlabrada’s University Hospital, classifying which features are more interesting for this porject. Later, we will normalize the data to avoid features to overlap with others due to the nature of their magnitudes. Also, we will apply separate class method, complete case data, missing values imputation and discarding instances and/or atributes, in order to manage the missing values. We will analyse the results and choose the best technique for the treatment of this type of data. To try to improve the model, we will study the following auxiliary techniques: principal component analysis and one hot encoder. Finally, we will apply the following machine learning algorithms: support vector machine, random forest classifier and k-nearest neighbor, to generate different classifier models and check which one fits better with the studied data and obtains a higher accuracy rate.

Item Type:Trabajo Fin de Grado
Additional Information:

Trabajo de Fin de Grado en Ingeniería del Software y Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2019/2020.

Directors:
Directors
Garnica Alcázar, Antonio Óscar
Ruiz Giardín, José Manuel
Uncontrolled Keywords:Bacteriemias, Dataframe, Técnicas de procesado de datos, Sobreajuste y subajuste, K-Fold Cross Validation, Principal Component Analysis (PCA), Support Vector Machine (SVM), Random Forest (RF), K-Nearest Neighbors (KNB), Hemocultivo
Palabras clave (otros idiomas):Bacteriemias, Dataframe, Pre-Processing Data, Overfitting y underfitting, K-Fold Cross Validation, Principal Component Analysis (PCA), Support Vector Machine (SVM), Random Forest (RF), K-Nearest Neighbors (KNB), Accuracy
Subjects:Sciences > Computer science
Título de Grado:Grado en Ingeniería del Software. Grado en Ingeniería Informática
ID Code:68255
Deposited On:19 Oct 2021 14:41
Last Modified:19 Oct 2021 14:46

Origin of downloads

Repository Staff Only: item control page