En marzo de 2021, el Consejo Directivo de la Universidad del Valle de Guatemala (UVG), autorizó la creación del Data Science Lab, como una unidad dentro del Centro de Estudios en Informática Aplicada (CEIA). Uno de los objetivos de esta nueva unidad es recolectar, almacenar y preservar la mayor cantidad de datos posibles, generados en Guatemala. Con esta información se creará un repositorio de datos abiertos; lo que significa que los datos estarán disponibles sin restricciones, con la condición de citar la fuente y compartir.

El nuevo Data Science Lab es una propuesta innovadora porque además de trabajar con bases de datos pequeñas, será uno de los pioneros en trabajar Big Data en el país y de poner al alcance de los guatemaltecos herramientas para trabajar con los datos. 

¿Qué es el Big Data?

El término Big Data se refiere a conjuntos de datos de gran tamaño y complejidad, que son tan voluminosos que se necesitan mayores recursos computacionales para trabajar con ellos. A pesar de su popularidad aún no se cuenta con un consenso de su definición, por lo que podemos simplificarlo al decir que: si los recursos que se tienen no alcanzan para procesar los datos, se trata de Big Data.

El Big Data es característico del siglo XXI: se estima que actualmente se generan 1.7 Megabytes de datos por segundo, por persona, en el mundo.  A pesar de su complejidad, estos volúmenes masivos de datos se pueden usar para identificar y solucionar problemas que antes no tenían solución o ni siquiera se sabían que existían. En otras palabras, el Big Data proporciona un punto de referencia

Las “tres V” del Big Data

La idea de las “tres V” responde a las características necesarias para que el Big Data sea relevante. Estas son:

  • Volumen: La cantidad de datos que tenemos importa porque nos dice qué herramientas utilizar para estructurar y procesar los datos. 
  • Velocidad: Esta característica se refiere al ritmo con el que se reciben los datos y se aplica alguna acción sobre ellos. En ocasiones estos datos pueden obtenerse en tiempo real, lo que requiere una evaluación y actuación a la misma velocidad.
  • Variedad: Esto se refiere a los diferentes tipos de datos disponibles. Antes, los datos convencionales eran estructurados y podían organizarse claramente en una base de datos relacional. Con el aumento del Big Data, la información es más difícil de estructurar, pues surgen elementos como el texto, audio o video.

Frecuentemente se manejan otras “dos V”: valor y veracidad. Estas responden a que los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho valor se descubre. Para ser de algún valor, los datos deben poder utilizarse, y esto depende de su conservación.

Resulta igualmente importante asegurarse de que los datos provengan de fuentes respetables y confiables. Por ello el CEIA pretende llenar un vacío en el país, al crear el Data Science Lab como un punto de referencia para que los investigadores y empresas de los diversos sectores puedan obtener datos relevantes. 

Los futuros proyectos del Data Science Lab

El Data Science Lab empezará sus funciones con 2 proyectos, que estarán disponibles al público:

  • Data Lake (Lago de Datos): Es un repositorio centralizado que permite almacenar datos estructurados y no estructurados a cualquier escala.  Se pueden almacenar los datos tal y como se encuentren, sin antes tener que estructurarlos. Asociado a este repositorio se tendrán herramientas de gestión de metadatos y un graficador interactivo.
  • Guatemala en Datos: Este proyecto se desarrolla en conjunto con el Observatorio Económico Sostenible (OES) de la UVG y busca ser una plataforma de datos de referencia para Guatemala. En ella se podrán encontrar los datos más relevantes sobre la realidad nacional que estén disponibles. La plataforma será de libre acceso, los datos podrán ser descargados libremente, el aporte de contenido será colaborativo y éste será del más alto rigor e imparcialidad.

Con la creación del Data Science Lab, el CEIA pretende ayudar a la conservación y mantenimiento de datos valiosos, con los que a largo plazo se pueden realizar más investigaciones que ayudarán al desarrollo del país. Este laboratorio de datos y la información que dispondrá son herramientas claves para entender nuestra realidad y actuar sobre ella.