El mundo de los datos necesita ingenieros
Los métodos para consultar y extraer conocimiento de los datos actuales son fundamentalmente diferentes de los análisis estadísticos tradicionales en muestras pequeñas
Hoy estamos inundados de una avalancha de datos. Es lo que popularmente se conoce como Big Data (datos a gran escala, inteligencia de datos). Es el mundo de los datos y su importancia es cada vez mayor.
El uso intensivo de los datos se ha mostrado interesante para la planificación urbana (mediante la fusión de datos geográficos de alta fidelidad), el transporte inteligente (a través del análisis y la visualización de datos vivos y detallados de la red de carreteras), vigilancia medioambiental (a través de redes de sensores que recopilan datos de forma ubicua), ahorro de energía (mediante el descubrimiento de patrones de uso), predicción de riesgos financiero (a través del análisis integrado de una red de contratos para encontrar dependencias entre entidades financieras), seguridad nacional (a través del análisis de redes sociales y transacciones financieras de posibles terroristas), seguridad informática (a través del análisis de la información registrada), y así sucesivamente. El almacenamiento y uso intensivo de los datos puede reducir el costo de la atención médica y mejorar su calidad, al hacer la atención más preventiva y personalizada y basarla en un seguimiento continuo y extenso de las actividades y síntomas de las personas, haciendo mucho más factible la máxima de ‘vale más prevenir que curar’.
Sin embargo, los problemas aparecen de inmediato durante la adquisición de datos, cuando el tsunami de datos nos obliga a tomar decisiones sobre qué datos conservar y cuales descartar, cómo almacenarlos de manera confiable. Los datos actuales son de tipologías muy diversas: los tweets y blogs son fragmentos de texto débilmente estructurados, mientras que las imágenes y los vídeos están preparados, en un primer momento, para su almacenamiento y visualización, pero no tanto para su búsqueda y análisis. Transformar ese contenido en un formato adecuado para su posterior análisis es un desafío importante. El valor de los datos aumenta considerablemente cuando pueden vincularse con otros datos, por lo que la integración de datos es otro desafío relevante. Como la mayoría de los datos se generan hoy directamente en formato digital, tenemos la oportunidad de influir en la creación de los datos para facilitar el enlace posterior y vincular automáticamente los datos creados previamente.
Los métodos para consultar y extraer conocimiento de los datos actuales son fundamentalmente diferentes de los análisis estadísticos tradicionales en muestras pequeñas. Los datos, en el mundo del Big Data, son distribuidos, tienen ruido (algunos valores, no se sabe cuáles, no están bien), son dinámicos, heterogéneos, interrelacionados y en muchos casos poco fiables. Sin embargo, incluso los datos con mucho ruido podrían ser más valiosos que las muestras pequeñas porque los patrones obtenidos suelen dominar las fluctuaciones individuales y, a menudo, revelan patrones y conocimientos ocultos más confiables. Además, interconectando grandes redes de información heterogénea, se puede explorar la redundancia para compensar los datos que faltan, verificar casos conflictivos, validar relaciones y descubrir nuevas relaciones y modelos ocultos.
El mundo de los datos necesita un nuevo profesional: el ingeniero de datos. Este profesional será el encargado de desarrollar, construir, probar y mantener arquitecturas, bases de datos y sistemas de procesamiento a gran escala. Los Ingenieros de Datos tendrán que implementar nuevas formas de mejorar la fiabilidad de los datos, la eficiencia y la calidad de los mismos. Un aspecto adicional relevante que deberá tener en cuenta es la seguridad y la confidencialidad de los datos (más aún a partir de la entrada en vigor a partir del pasado mes de mayo del reglamento europeo de protección de datos personales). Los aspectos mencionados ya están presentes en las aplicaciones existentes.
Se perfila un Ingeniero de datos como un ingeniero informático, con conocimientos avanzados de Ingeniería del Software y Sistemas de Información, que conozca las características de los datos, el tipo de consultas frecuentes que son interesantes para la entidad correspondiente y los aspectos en los que la entidad está interesada en mejorar a través de la gestión intensiva de los datos. Deberá conocer el software y el hardware disponibles y sus posibilidades. Deberá conocer técnicas de almacenamiento eficiente, procesamiento de datos en arquitecturas avanzadas y distribuidas y técnicas de ingeniería del software. Deberá conocer la legislación y las normativas europeas y nacionales referidas a la seguridad y la confidencialidad de los datos. Deberá tener habilidades de comunicación adecuadas para interaccionar con diferentes perfiles de usuarios de los datos. Además, en el mundo Big Data su labor estará complementada con la del científico de datos para buscar nuevos algoritmos o usar los disponibles para extraer patrones de los datos.
Miguel Toro, Arantza Illarramendi, Francisco Ruiz son catedráticos de las Universidades de Sevilla, País Vasco y Castilla La Mancha.
Crónicas del Intangible es un espacio de divulgación sobre las ciencias de la computación, coordinado por la sociedad académica SISTEDES (Sociedad de Ingeniería de Software y de Tecnologías de Desarrollo de Software). El intangible es la parte no material de los sistemas informáticos (es decir, elsoftware), y aquí se relatan su historia y su devenir. Los autores son profesores de las universidades españolas, coordinados por Ricardo Peña Marí (catedrático de la Universidad Complutense de Madrid) y Macario Polo Usaola (profesor titular de la Universidad de Castilla-La Mancha).
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.