“El machine learning es estadística glorificada”

John Alexis Guerra, profesor de la Universidad de los Andes, desmitifica las tecnologías del momento y defiende una mejor selección de las herramientas necesarias para cada caso

Destrucción de la bestia y el falso profeta. Benjamin West (1804)

John Alexis Guerra lleva un rato describiendo una tabla de ocho columnas y doce filas con cuatro series numéricas. Los números varían, salta a la vista, pero no parece nada del otro mundo. De hecho, todas las series tienen la misma media.

Después de un rato más comentando las cifras, el profesor de la Universidad de Los Andes cambia la diapositiva.

"Un, dos, tres", cuenta, antes de volver a la tabla anterior. "¿Qué vieron?". Todos los asistentes al Singularity University Summit de Colombia vieron cuatro gráficos distintos, cada uno de su padre y de su madre, pero eso sí, todos co...

Suscríbete para seguir leyendo

Lee sin límites

John Alexis Guerra lleva un rato describiendo una tabla de ocho columnas y doce filas con cuatro series numéricas. Los números varían, salta a la vista, pero no parece nada del otro mundo. De hecho, todas las series tienen la misma media.

Después de un rato más comentando las cifras, el profesor de la Universidad de Los Andes cambia la diapositiva.

"Un, dos, tres", cuenta, antes de volver a la tabla anterior. "¿Qué vieron?". Todos los asistentes al Singularity University Summit de Colombia vieron cuatro gráficos distintos, cada uno de su padre y de su madre, pero eso sí, todos con la misma media y marcando la misma tendencia, supuestamente creciente.

El profesor ha dejado claro dos cosas: la estadística básica no siempre es el camino más corto ni el más revelador, y la visualización de un conjunto de datos, por sencillos que sean, puede demostrarlo en tres segundos. "Yo estuve hablando dos minutos aquí y no fuimos capaces de coger nada. Ni con estadística, ni mirando directamente los datos. Ahora imagínense en cualquiera de sus empresas, donde tienen millones de registros. Y si usted va y alimenta eso en una vaina de machine learning, que es estadística glorificada, probablemente va a llegar a un resultado similar. Fíjense en el poder de la visualización", sentencia.

  • Ese gran desconocido

Pero esta no es la única revelación que quiere compartir Guerra. El profesor de informática de sistemas se ha propuesto redefinir el concepto de big data. “Probablemente ustedes hayan pagado por conferencias y se hayan capacitado. Y probablemente, lo que les habrán hablado de las v’s: volumen, variable, velocidad, vla, vla, vla… Y depende de la plata que hayan pagado por el curso, habrá cinco y seis y siete v’s”, asegura, hastiado de la ambigüedad que rodea a esta pareja de palabras. “Uno sale de esa vaina pensando que eso va a cambiar el mundo, pero sin saber qué rayos es”.

Si sus datos caben en un computador, es sencillo: no es big data

Guerra apuesta por olvidarse de iniciales e inspiradores potenciales y utilizar criterios básicos pero irrefutables para saber qué es el big data y cuando es necesario. “La cuestión es muy sencilla. ¿Puede usted poner esa vaina en un computador? ¿Le cabe? Si sus datos caben en un computador, es sencillo: no es big data”.

  • Big data para seres terrenales

Para profundizar en su propuesta, el docente tira de colecciones de fotos. “Cuántas les caben a ustedes en el celular. ¿Mil? Unos diez gigas. ¿Eso es big data? Pues no. Porque pueden manejarlo desde ahí”, insiste. Si la colección se multiplica por cincuenta, la cosa sigue igual.

“Yo soy uno de esos fastidiosos que toma fotos por cualquier pendejada”, reconoce. Y aún así, las 250.000 fotos que ha sacado durante los últimos quince años, caben en un disco duro externo de 500 gigas. “Tampoco es big data”, repite.

“Otra cosa es que los datos sean una vaina gigante que sencillamente no cabe. Ese es el problema y la razón por la cual usted debería utilizar big data”, continúa. No hace falta abandonar el ejemplo de las fotografías. ¿Qué pasa si no sentamos delante de la base de datos de imágenes que acumulan plataformas como Flickr? “La última vez que estuve trabajando con ellos, tenían 80 billones de fotos. Eso sí es big data, porque toca distribuirlo en cientos de computadores, asignar a cada uno una tarea específica y luego recolectar los resultados”.

Pongamos que queremos identificar todas las imágenes azules. Cada ordenador de los que componen esa red, explica Guerra, se considera un mapper o mapeador. Su papel es realizar el mismo procedimiento sobre la parte de la base de datos de fotografías que se le ha asignado y generar un resultado que posterior mente pasa a lo que se conoce como reductor o reducer. En este punto, todos esos datos se agregan en el resultado total. “Y ya todos tienen la certificación de lo que es el algoritmo de map reduce, que es la base de esto”, celebra.

Sin embargo, es solo el principio del problema. Cuando el big data se hace necesario, también es preciso determinar cuántos computadores exigirá el cálculo, facilitar espacio y efectividad suficiente, conectividad entre los equipos… “Solamente esa logística lleva un montón de algoritmos”, señala el profesor.

  • El tamaño no importa

Su propuesta es una mejor selección de herramientas. No vamos a usar big data para diez gigas de fotos por el mismo motivo que no untamos mantequilla con un cuchillo jamonero. “No importa que el conjunto de datos sea chiquito. Lo que importa es qué información va a sacar usted de ahí”, asegura.

¿Y cómo se hace eso sin un ejército de ordenadores? “Si uno coge un científico de la vieja guardia, le dirá que utilice métodos estadísticos. Si de pronto es más hípster, le dirá que utilice machine learning. Y si es un tipo como yo, de dirá que hay otras cosas, como vision analytics o visualización de datos”.

El plan de Guerra es aplicar el método que empleó en su tabla de ocho columnas a todo lo que quepa en un ordenador, y hacerlo con interfaces visuales que permitan al usuario interactuar directamente con los datos. Si la alternativa no convence, siempre se puede dar un paso atrás. “Una opción es aprender a programar. Otra es contratar a un analista. Si es uno de estos hípsters, le va a traer una caja negra con su algoritmo de moda. Ni si quiera van a entender qué es lo que está ahí”.

Archivado En