Los juegos del hambre de los científicos de datos
Competiciones de 'data science' enfrentan a programadores de todo el mundo por premios que alcanzan el millón de dólares
Barco o iceberg? La batalla por responder a esta pregunta duró cuatro meses. Más de 3.000 personas combatieron para resolver el problema que hundió al Titanic. Para los campeones, 50.000 dólares. Pero las guerras de Kaggle no acaba ni empieza con esta escaramuza. Clasificar peces, monitorizar taxis, mejorar la ruta de Papá Noel, detectar tráfico fraudulento, corregir ensayos, diagnosticar cáncer de pulmón, contar leones marinos...
Cualquier excusa es buena para la contienda en el coliseo del data science. Santiago Mota empezó con la predicción del recorrido de los taxis en Oporto. "Mi compañero se retiró, seguí yo solo y terminé el décimo, con lo cual me llevé una medalla de oro. Al empezar tan bien, ya seguí", recuerda. Desde entonces ostenta el rango de maestro en esta plataforma de competiciones, que nació en 2010 y fue comprada por Google en marzo del año pasado.
El premio puede ser una entrevista de trabajo
La idea es sencilla: empresas de todo el mundo presentan sus problemas de analítica y modelos predictivos ante la comunidad de Kaggle, fijan los plazos, la recompensa y abren la competición. El premio no tiene por qué ser dinero: "Puede ser una entrevista de trabajo", comenta Mota. Pero si hablamos de dólares, los 50.000 que se pusieron en juego por resolver el acertijo de los icebergs eran triste calderilla.
Relación entre premios y participantes en las competiciones de Kaggle
Fuente: Kaggle
La mayoría de los desafíos no suelen ofrecer premios que superen la barrera de los 200.000 euros, pero ha habido jugosas excepciones. Excepciones millonarias, como la que lanzó la plataforma inmobiliaria Zillow en mayo del año pasado y que enfrentó a casi 4.000 personas: 1.200.000 dólares por mejorar su algoritmo de predicción de precios.
Aunque los premios suelen repartirse entre varios equipos, sus integrantes e incluso distintas rondas, la élite de Kaggle puede alcanzar sobresueldos nada desdeñables. "Hay un corte que puede estar entre los 75 y 100 primeros que están ganando salarios anuales de 100.000 euros para arriba", señala Mota. Pero alcanzar este nivel exige sacrificios: "Hablan de una dedicación de 30 horas a la semana durante meses. De hecho, es raro que el que está primero aguante mucho tiempo. Hay quien dice que mantenerse arriba casi le cuesta la familia".
Con todo, alcanzar los premios no es fácil para el lobo solitario. En muchos casos, los vencedores son equipos internacionales integrados por usuarios que nunca se han visto la cara. "Este modelo de competición aporta muchísimo porque al final cuando trabajas con gente de distintos países, con distintas visiones, es mucho más fácil mezclar soluciones que van aportando mejoras diferentes. De hecho, cuando se forman los equipos es habitual que al principio cada uno afronte el problema por separado durante un tiempo para no contaminar", precisa Mota.
- No quiero tu sucio dinero
Los desafíos regados de millones no tienen el éxito garantizado. Poco importó el millón y medio que ofrecía el Departamento de Seguridad Nacional estadounidense por la puesta a punto de los algoritmos de detección de amenazas de los aeropuertos. La competición cerró con menos de 500 tristes participantes.
¿Por qué el boicot? Solo podían participar ciudadanos estadounidenses, un requisito poco apetecible para una comunidad internacional de programadores aficionada a los datos abiertos y la colaboración transfronteriza. De hecho, hasta el concurso de Zillow estuvo a punto de hacer aguas cuando excluyó a China de la competición. Finalmente se eliminó esta limitación.
- Lo importante es participar
Las posibilidades de ganar dinero en Kaggle son remotas para gran parte de los usuarios. "La mayoría estamos para hacernos un poco de nombre y, sobre todo, para aprender. Porque llegar al dinero es difícil", explica Mota, que fuera de Kaggle es profesor de Business Intelligence y Big Data en la Escuela de Organización Industrial (EOI). Una buena posición en los ránkings de Kaggle puede no ser suficiente para rascar los millones, pero sirve para validar las propias capacidades. "A mí profesionalmente el estar arriba en Kaggle me ha servido para que me llamen de fuera. En España, no mucha gente conoce la plataforma".
Según recuerda Mota, la única empresa española que ha presentado desafíos de Data Science a través de Kaggle es el Banco Santander, que primero retó a la comunidad a identificar usuarios insatisfechos y un año más tarde le propuso mejorar sus sistemas de recomendación de productos. Aquí la batalla es más frecuente en hackathones offline: "Incluso se hace algún que otro evento que es un proceso de selección camuflado. No son tan largos como los de Kaggle, tal vez duran un fin de semana. Es difícil encontrar perfiles de científico de datos y de vez en cuando las empresas hacen concursos para ver si pescan algo".
Otros desafíos
- DrivenData: esta plataforma no alcanza las millonadas de Kaggle, pero compensa la brecha planteando retos cuya resolución mejoraría nuestro entorno. Machine learning con impacto social.
- TunedIT: es una iniciativa de la Universidad de Varsovia. Identificación de materiales, organización de tareas y extracción de información musical han centrado algunos de sus desafíos.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.