Textos en latín y longitudes inasumibles: las revelaciones de un buscador de políticas de privacidad
Un equipo de investigadores de la Universidad Estatal de Pensilvania ha creado PrivaSeer, una herramienta para explorar qué hacen con nuestros datos más de un millón de empresas
En el gremio del diseño gráfico, los textos pendientes escribir se completan con lo que se conoce como Lorem Ipsum, un galimatías en latín que procede de un texto de Cicerón al que se le han borrado sílabas y caracteres. Si introducimos estas dos palabras en PrivaSeer, un buscador de políticas de privacidad que han creado tres investigadores de la Universidad Estatal de Pensilvania, obtenemos más de dos mil resultados. Concretamente 2.462 páginas que deberían explicar el modo en que una empresa usa los datos de sus clientes, p...
En el gremio del diseño gráfico, los textos pendientes escribir se completan con lo que se conoce como Lorem Ipsum, un galimatías en latín que procede de un texto de Cicerón al que se le han borrado sílabas y caracteres. Si introducimos estas dos palabras en PrivaSeer, un buscador de políticas de privacidad que han creado tres investigadores de la Universidad Estatal de Pensilvania, obtenemos más de dos mil resultados. Concretamente 2.462 páginas que deberían explicar el modo en que una empresa usa los datos de sus clientes, pero cuando fueron indexadas mostraban una retahíla sin sentido al menos en alguno de sus apartados. “Hay páginas ahí fuera que no han publicado aún su política de privacidad. Y en muchos casos es ilegal. Pero ocurre”, explica Shomir Wilson, profesor asistente en de la Universidad Estatal de Pensilvania, que ha desarrollado PrivaSeer en colaboración con Lee Giles, profesor de la misma institución, y Mukund Srinath, estudiante de doctorado.
Según la estimación de Srinath, los textos falsos podrían ser más: “No tenemos estadísticas del porcentaje exacto, pero siendo conservador, te diría que un 0,5% de las páginas que tenían que ser políticas de privacidad tenían estos Lorem Ipsum”, razona. Esta aproximación equivaldría a unos 7.000 documentos de los 1,4 millones que indexa el motor de búsqueda.
Los textos en latín son una revelación inesperada entre las que permite obtener este motor de búsqueda, pensado para dotar de mayor transparencia estos textos ya famosos por su difícil digestión. Otras ya las conocíamos: “El problema más significativo es el tiempo que se tarda en leer estas políticas y lo complicadas que son”, resume Srinath. Y otras tantas aún están por descubrir: “Hay una creciente comunidad de investigadores interesados en estudiar las políticas de privacidad de aplicaciones y páginas y la mayoría de las colecciones que ha habido hasta ahora eran relativamente pequeñas”, continúa Wilson.
Por ahora, PrivaSeer tiene indexadas más de un millón de políticas de privacidad recopiladas a través de un rastreador web (en inglés, web crawler) capaz de identificar estos documentos en función de una serie de palabras claves. Una vez identificados los textos, un sistema de procesamiento del lenguaje natural extrae sus características de forma automatizada, de manera que cada búsqueda no solo muestra los textos que contienen unas palabras específicas, sino que permite recabar información adicional sobre esos resultados: a qué industrias corresponden esas políticas, qué tecnologías de rastreo se mencionan, qué regulaciones se tienen en cuenta... “Conforme los filtros se vuelvan más ricos e informativos, podremos mostrar más información”, promete Srinath.
¿Por qué necesitamos un buscador de este tipo? “Por una parte, somos cotillas”, resume Giles, que durante su carrera ha creado ya varios buscadores especializados que comparten el apellido “seer” (CiteSeer, ChemSeer, BotSeer...). “Además, el buscador nos permite ver a gran escala las tendencias en lo relativo a la privacidad de los consumidores, detalles que no siempre podemos detectar en las noticias. Y podemos ganar visibilidad en cuanto al modo en que la privacidad cambia con el tiempo”, continúa Wilson.
Inesperada variedad
Aunque inicialmente los investigadores esperaban encontrar bastantes similitudes entre los textos indexados, la realidad es que en el sector hay menos copia-pega de lo que cabría imaginar. “Muy pocas compañías usan generadores de políticas de privacidad. Y las que lo hacen, toman prestada la estructura original, pero aplican una cantidad considerable de cambios”, confirma Srinath. ¿Es bueno que haya tanta diversidad o sería mejor que las políticas de privacidad estuvieran más estandarizadas? “Creo que sería preocupante que las empresas estuvieran simplemente copiando y pegando sin articular qué significa cada parte para su negocio”, razona Wilson.
Para el futuro próximo, los investigadores esperan desarrollar procesos automatizados que permitan indexar nuevas políticas de privacidad y actualizar las que ya tienen y aplicar métodos de análisis más sofisticados para extraer más información. ¿Veremos otros idiomas en PrivaSeer? El plan es que vayan llegando. “Al menos en la Unión Europea, lo más habitual es que la compañía publique sus políticas en un solo idioma, normalmente inglés, y si añaden un segundo, es el lenguaje dominante en el país donde se ubica el negocio”, comenta Wilson. “Una pregunta abierta en la que estoy trabajando con otro grupo de investigación es: ¿Con cuánta frecuencia se contradicen las políticas escritas en distintos idiomas? Todavía no lo sabemos, pero sí hemos encontrado casos en los que no tienen los mismos contenidos”.
A largo plazo, los investigadores esperan que iniciativas como PrivaSeer permitan avanzar hacia una nueva configuración para estas políticas de privacidad: un formato que verdaderamente informe a la gente sobre lo que está ocurriendo con sus datos y le permita tomar decisiones efectivas al respecto. “Queremos revelar más sobre cómo funciona el paisaje de la privacidad de los consumidores en internet y esperamos que esa información sea utilizada por los reguladores para influir en lo que venga después”, concluye Wilson.
El objetivo no es sencillo. Para hacer su trabajo estos investigadores necesitan, entre otras cosas, conseguir financiación que les permita estudiar detenidamente unos textos que el resto de la sociedad, como norma general, ignora. Sin embargo, Giles se muestra optimista. “Es más fácil encontrar financiación para las cosas que la gente conoce. Pero ahora la gente está empezando a preocuparse por la privacidad. Así que pienso que es un buen momento”.
Puedes seguir a EL PAÍS TECNOLOGÍA en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.