Universidad Complutense de Madrid
E-Prints Complutense

Virus de ácido ribonucleico (ARN) y coronavirus en Google Dataset Search: alcance y correlación epidemiológica
Ribonucleic acid (RNA) virus and coronavirus in Google Dataset Search: their scope and epidemiological correlation

Downloads

Downloads per month over past year

63513

Impacto

Downloads

Downloads per month over past year

Blazquez Ochando, Manuel and Prieto Gutiérrez, Juan José (2020) Virus de ácido ribonucleico (ARN) y coronavirus en Google Dataset Search: alcance y correlación epidemiológica. Profesional de la Información, 29 (6). ISSN 1699-2407

[thumbnail of blazquez-prieto.pdf]
Preview
PDF
1MB

Official URL: https://doi.org/10.3145/epi.2020.nov.28



Abstract

Se presenta un análisis sobre la publicación de conjuntos de datos recogidos en el buscador Google Dataset Search, especializados en familias de virus de ARN, cuya terminología fue obtenida en el tesauro del National Cancer Institute (NCI), elaborado por el Department of Health and Human Services de los Estados Unidos. Se busca evaluar el alcance y capacidad de reutilización de los datos disponibles, determinando el número de datasets, su libre acceso, proporción en formatos de descarga reutilizables, principales proveedores, cronología de publicación y verificación de su procedencia científica. Por otra parte, definir posibles vínculos entre la publicación de datasets y las principales pandemias ocurridas en los últimos 10 años. Entre los resultados obtenidos se destaca que sólo el 52% de los datasets tienen correspondencia con investigaciones científicas y, en menor medida, un 15% son reaprovechables. También se observa una evolución al alza en la publicación de datasets, especialmente vinculada a la afectación de las principales epidemias. Esto es confirmado de manera evidente con los virus del Ébola, Zika, SARS-CoV, H1N1, H1N5 y, particularmente con el coronavirus SARS-CoV-2. Finalmente, se observa que el buscador aún no ha implementado métodos adecuados para el filtrado y supervisión de los datasets. Estos resultados muestran algunas de las dificultades que aún presenta la ciencia abierta en el campo de los datasets

Resumen (otros idiomas)

This paper presents an analysis of the publication of datasets collected via Google Dataset Search, specialized in families of RNA viruses, whose terminology was obtained from the National Cancer Institute (NCI) thesaurus developed by the US Department of Health and Human Services. The objective is to determine the scope and reuse capacity of the available data, determine the number of datasets and their free access, the proportion in reusable download formats, the main providers, their publication chronology, and to verify their scientific provenance. On the other hand, we also define possible relationships between the publication of datasets and the main pandemics that have occurred during the last 10 years. The results obtained highlight that only 52% of the datasets are related to scientific research, while an even smaller fraction (15%) are reusable. There is also an upward trend in the publication of datasets, especially related to the impact of the main epidemics, as clearly confirmed for the Ebola virus, Zika, SARS-CoV, H1N1, H1N5, and especially the SARS-CoV-2 coronavirus. Finally, it is observed that the search engine has not yet implemented adequate methods for filtering and monitoring the datasets. These results reveal some of the difficulties facing open science in the dataset field.

Item Type:Article
Uncontrolled Keywords:Datos; Datasets; Conjuntos de datos; Virus; Virus de ARN; Coronavirus; SARS-CoV-2; Covid-19; Pandemias; Reutilización de datos; Google; Google Dataset Search; Proveedores de datos; Buscadores; Recuperación de información; Ciencia abierta.
Palabras clave (otros idiomas):Data; Datasets; Viruses; RNA viruses; Coronavirus; SARS-CoV-2; Covid-19; Pandemics; Data reuse; Google; Google Dataset Search; Data providers; Search engines; Information retrieval; Open science.
Subjects:Medical sciences > Medicine > Communicable diseases
Medical sciences > Medicine > Public health
Social sciences > Library science and documentation > Databases
Social sciences > Library science and documentation > Information retrieval
ID Code:63513
Deposited On:25 Jan 2021 12:13
Last Modified:25 Jan 2021 12:54

Origin of downloads

Repository Staff Only: item control page