_
_
_
_
_
Tribuna
Artículos estrictamente de opinión que responden al estilo propio del autor. Estos textos de opinión han de basarse en datos verificados y ser respetuosos con las personas aunque se critiquen sus actos. Todas las tribunas de opinión de personas ajenas a la Redacción de EL PAÍS llevarán, tras la última línea, un pie de autor —por conocido que éste sea— donde se indique el cargo, título, militancia política (en su caso) u ocupación principal, o la que esté o estuvo relacionada con el tema abordado

El mundo de los datos necesita ingenieros

Los métodos para consultar y extraer conocimiento de los datos actuales son fundamentalmente diferentes de los análisis estadísticos tradicionales en muestras pequeñas

Estudiantes de informática en la Universidad Pablo de Olavide de Sevilla.
Estudiantes de informática en la Universidad Pablo de Olavide de Sevilla.

Hoy estamos inundados de una avalancha de datos. Es lo que popularmente se conoce como Big Data (datos a gran escala, inteligencia de datos). Es el mundo de los datos y su importancia es cada vez mayor.

El uso intensivo de los datos se ha mostrado interesante para la planificación urbana (mediante la fusión de datos geográficos de alta fidelidad), el transporte inteligente (a través del análisis y la visualización de datos vivos y detallados de la red de carreteras), vigilancia medioambiental (a través de redes de sensores que recopilan datos de forma ubicua), ahorro de energía (mediante el descubrimiento de patrones de uso), predicción de riesgos financiero (a través del análisis integrado de una red de contratos para encontrar dependencias entre entidades financieras), seguridad nacional (a través del análisis de redes sociales y transacciones financieras de posibles terroristas), seguridad informática (a través del análisis de la información registrada), y así sucesivamente. El almacenamiento y uso intensivo de los datos puede reducir el costo de la atención médica y mejorar su calidad, al hacer la atención más preventiva y personalizada y basarla en un seguimiento continuo y extenso de las actividades y síntomas de las personas, haciendo mucho más factible la máxima de ‘vale más prevenir que curar’.

Sin embargo, los problemas aparecen de inmediato durante la adquisición de datos, cuando el tsunami de datos nos obliga a tomar decisiones sobre qué datos conservar y cuales descartar, cómo almacenarlos de manera confiable. Los datos actuales son de tipologías muy diversas: los tweets y blogs son fragmentos de texto débilmente estructurados, mientras que las imágenes y los vídeos están preparados, en un primer momento, para su almacenamiento y visualización, pero no tanto para su búsqueda y análisis. Transformar ese contenido en un formato adecuado para su posterior análisis es un desafío importante. El valor de los datos aumenta considerablemente cuando pueden vincularse con otros datos, por lo que la integración de datos es otro desafío relevante. Como la mayoría de los datos se generan hoy directamente en formato digital, tenemos la oportunidad de influir en la creación de los datos para facilitar el enlace posterior y vincular automáticamente los datos creados previamente.

Responsables del máster en Advanced Analytics on Big Data de la Universidad de Málaga.
Responsables del máster en Advanced Analytics on Big Data de la Universidad de Málaga.PTA (Europa Press)

Los métodos para consultar y extraer conocimiento de los datos actuales son fundamentalmente diferentes de los análisis estadísticos tradicionales en muestras pequeñas. Los datos, en el mundo del Big Data, son distribuidos, tienen ruido (algunos valores, no se sabe cuáles, no están bien), son dinámicos, heterogéneos, interrelacionados y en muchos casos poco fiables. Sin embargo, incluso los datos con mucho ruido podrían ser más valiosos que las muestras pequeñas porque los patrones obtenidos suelen dominar las fluctuaciones individuales y, a menudo, revelan patrones y conocimientos ocultos más confiables. Además, interconectando grandes redes de información heterogénea, se puede explorar la redundancia para compensar los datos que faltan, verificar casos conflictivos, validar relaciones y descubrir nuevas relaciones y modelos ocultos.

El mundo de los datos necesita un nuevo profesional: el ingeniero de datos. Este profesional será el encargado de desarrollar, construir, probar y mantener arquitecturas, bases de datos y sistemas de procesamiento a gran escala. Los Ingenieros de Datos tendrán que implementar nuevas formas de mejorar la fiabilidad de los datos, la eficiencia y la calidad de los mismos. Un aspecto adicional relevante que deberá tener en cuenta es la seguridad y la confidencialidad de los datos (más aún a partir de la entrada en vigor a partir del pasado mes de mayo del reglamento europeo de protección de datos personales). Los aspectos mencionados ya están presentes en las aplicaciones existentes.

Se perfila un Ingeniero de datos como un ingeniero informático, con conocimientos avanzados de Ingeniería del Software y Sistemas de Información, que conozca las características de los datos, el tipo de consultas frecuentes que son interesantes para la entidad correspondiente y los aspectos en los que la entidad está interesada en mejorar a través de la gestión intensiva de los datos. Deberá conocer el software y el hardware disponibles y sus posibilidades. Deberá conocer técnicas de almacenamiento eficiente, procesamiento de datos en arquitecturas avanzadas y distribuidas y técnicas de ingeniería del software. Deberá conocer la legislación y las normativas europeas y nacionales referidas a la seguridad y la confidencialidad de los datos. Deberá tener habilidades de comunicación adecuadas para interaccionar con diferentes perfiles de usuarios de los datos. Además, en el mundo Big Data su labor estará complementada con la del científico de datos para buscar nuevos algoritmos o usar los disponibles para extraer patrones de los datos.

Miguel Toro, Arantza Illarramendi, Francisco Ruiz son catedráticos de las Universidades de Sevilla, País Vasco y Castilla La Mancha.

Crónicas del Intangible es un espacio de divulgación sobre las ciencias de la computación, coordinado por la sociedad académica SISTEDES (Sociedad de Ingeniería de Software y de Tecnologías de Desarrollo de Software). El intangible es la parte no material de los sistemas informáticos (es decir, elsoftware), y aquí se relatan su historia y su devenir. Los autores son profesores de las universidades españolas, coordinados por Ricardo Peña Marí (catedrático de la Universidad Complutense de Madrid) y Macario Polo Usaola (profesor titular de la Universidad de Castilla-La Mancha).

Regístrate gratis para seguir leyendo

Si tienes cuenta en EL PAÍS, puedes utilizarla para identificarte
_

Archivado En

Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
_
_