Sobrepasados por el ‘big data’

La cantidad y variedad de la información almacenada en la nube supone un reto para los analistas, que buscan nuevas técnicas de procesamiento

Andrea Nogueira Calvar

Madrid - 06 ene 2019 - 00:05CET

Compartir en Facebook

Compartir en Twitter

Compartir en Bluesky

Compartir en Linkedin

Copiar enlace

Centro de datos de Facebook,en Lulea, en la Laponia sueca.Getty Images

Hace 12 años la startup Farecast desarrolló un sistema mediante el cual predecía el precio de los billetes de avión. Esto ayudaba a sus usuarios a comprar en el mejor momento, pues alertaba de posibles subidas y bajadas. Microsoft se hizo con la compañía, en 2008, por 115 millones de dólares. Este caso es un precedente en la corta historia del big data, no solo porque muestra uno de los primeros casos de uso de datos a gran escala, sino también porque evidenció cómo podía cambiar el modelo de negocio usando la propia información de las aerolíneas. El análisis de datos masivos ha transformado los mercados, la forma de gestionar las ciudades e incluso la manera en la que las personas se relacionan entre ellas. En cambio, todavía se encuentra en una fase incipiente de su desarrollo. El volumen de datos que se almacena, así como su variedad, supone un reto técnico: ¿Cómo extraer conocimiento de semejante acopio?

Rafael Lahoz-Beltra es profesor de Biomatemáticas en la Universidad Complutense de Madrid. Ha escrito el libro Estadística y Big Data, de la colección Grandes ideas de las matemáticas, que recorre el proceso que va desde la estadística básica al análisis de los macrodatos. Sostiene que el big data “no hace más que recuperar las técnicas tradicionales de estadística y las de la inteligencia artificial de los años 60 y 70” —aunque el concepto parezca novedosos, el inicio de la IA se sitúa en los años 50, de la mano de Alan Turing—. El profesor considera que “todo el célebre big data se resume en hacer pequeñas predicciones, clasificaciones, identificaciones de sujetos de un grupo”. Si bien, ahora las técnicas tradicionales se ven superadas por un caudal incesante de información. En sus primeros años de vida Farecast ya filtraba doscientos mil millones de registros de vuelos.

Aunque la información que manejan las grandes compañías se mide en miles de millones, el profesor quiere restar distancia entre las personas y el big data. “Existen programas muy sencillos y gratis, como R, con el que cualquier persona en su casa puede aprender técnicas de análisis”. Lahoz-Beltra defiende que las matemáticas “permiten una aproximación más sencilla a fenómenos muy complejos”, con lo que es preciso conocer algunas posibilidades prácticas de este campo.

Él, que es biólogo, ha empleado técnicas big data en varios estudios. Uno de ellos estableció una relación entre la risa y la depresión. Registraron la manera de reírse de pacientes sanos y con depresión y formularon un patrón por el que, gracias al sonido de la quinta carcajada, pudieron predecir con un 85% de acierto qué pacientes sufrían esta enfermedad. “Vimos que, curiosamente, hombres y mujeres no ríen igual”, revela el profesor.

La nube ocupa y consume

La nube tiene una estructura física: los centros de datos que albergan superordenadores en los que se almacena la información. El más potente de España se encuentra en Alcalá de Henares y pertenece a Telefónica —la superficie total es de 75 kilómetros cuadrados—, pero están por todo el territorio y son tanto de ámbito público como privado.

Google, uno de los mayores guardianes de datos del mundo, acaba de invertir 600 millones de euros en la construcción de un nuevo centro en Dinamarca. Será la quinta sede de datos de la compañía en Europa, después de Irlanda, Finlandia, los Países Bajos y Bélgica. Estas sedes tienen un coste para el medio ambiente: se considera que el 3% de la energía que se produce en el mundo la consumen los data center. La compañía se ha comprometido a que el uso de energía de este nuevo centro sea libre de carbono. "Estamos buscando nuevas oportunidades de inversión (denominadas Acuerdos de Compra de Energía o PPA) en proyectos de energía renovable en Dinamarca, como energía eólica terrestre, energía eólica marina y solar", declaran en su blog.

Tradicionalmente los datos que manejaban los científicos se reducían a números y palabras, con lo que se podían estructurar de manera sencilla mediante tablas. “Por ejemplo si tenías el historial de un paciente tenías el sexo, que es una palabra, y los datos de un análisis, que eran numéricos”, apunta. Lahoz-Beltra expone que “ahora la variedad es espectacular y no está estructurada, porque tienes una resonancia metida en un CD, que no es ni número, ni texto. ¿Qué haces con un PDF o un vídeo de Youtube?”.

Internet presente otro dilema en la clasificación: la mentira. Los perfiles de usuarios en redes sociales, páginas webs y pseudodiarios digitales llenan la Red de información falsa. El profesor recuerda que “la inteligencia artificial aún no sabe identificar qué es verdad y qué mentira, tampoco qué es pertinente”.Richard Benjamins, embajador de big data de Telefónica, explica que para almacenar los datos “cuanto más se estructuran más fácil los puedes usar, pero luego son más difíciles de reutilizar”. Así que las empresas buscan un equilibro entre almacenar datos “en crudo” y ya disgregados. “Cuando empezó el big datahace 10 años se intentaba guardar todo en los llamados lagos de datos, pero luego se han dado cuenta de que si no estructuras nada, tienes un pozo en el que no se puede encontrar nada”.

Dependiendo del sector los datos se guardarán durante un periodo de tiempo más o menos extenso. Bejamins señala que en el caso de las aseguradoras, debido al tipo de productos que ofrecen a largo plazo, pueden ser entre 15 y 20 años, mientras que un banco solo los retendrá unos 5 años.

La Corporación Internacional de Datos asegura que en 2020 habrá casi tantos bits digitales como estrellas en el universo y establece que ese mismo año se generarán 44 zetabytes de información. “Eso son 10 elevado a 12 gigas, 44 con doce ceros”, repite Lahoz-Beltra con asombro. Almacenar estas cantidades tiene un coste. Benjamins da un ejemplo: “Si tienes 40 o 100 millones de registros a lo mejor puedes pagar al mes centenas de miles de euros”. Sin embargo, el coste mayor es el de procesamiento.

Los dilemas éticos

Netflix creó la serie House of cards basándose en los gustos de sus usuarios. Recopilaron desde qué temáticas triunfaban hasta quiénes eran los actores más apreciados. La serie fue un éxito (aunque con final sentenciado por la vida real de uno de sus actores y no por el big data). La plataforma on line recomienda series y películas según las últimas visualizaciones del usuario y las tendencias del momento. Lo mismo hace Amazon con productos basados en las búsquedas anteriores. En el libro Big data: la revolución de los datos masivos (2013), Viktor Mayer-Schönberger, profesor de Regulación y gobernanza en Internet de la Universidad de Oxford, y Kenneth Cukier, periodista especializado en tecnología, ya se preguntaban “¿qué papel les queda a la intuición, la fe, la incertidumbre el obrar en contra de la evidencia y de aprender de la experiencia?”.

Los dilemas van más allá, como se vio en el caso de venta de datos por parte de Facebook a la empresa británica Cambridge Analytica. En cambio, el Observatorio Nacional de las Telecomunicaciones y Sociedad de la Información reveló el pasado octubre que el 43,1% de los usuarios encuestados confía bastante o mucho en Internet y un 46,4% lo percibe como más seguro cada día.

Algunas aplicaciones del big data son cuestionadas, pero otras han mejorado desde las técnicas sanitarias a la movilidad, como el estudio de Lahoz-Beltra o los datos que las antenas de Telefónica recogen en Madrid, Barcelona o Zaragoza, gracia a los cuales el transporte se gestiona de manera más eficiente. Benjamins aclara que no se venden los datos, sino que ofrecen información ya procesada sobre los ciclos de circulación. El experto reconoce que si bien hay cierta incertidumbre sobre el big data, “no debemos tener miedo” porque “hay más oportunidades que aprovechar para mejorar que riesgos”.

Mis comentarios Normas

Rellena tu nombre y apellido para comentarcompletar datos

Suscríbete en El País para participar Ya tengo una suscripción

La nube ocupa y consume

Los dilemas éticos

Archivado En