Los ‘deepfakes’ de voz engañan incluso cuando se prepara a la gente para detectarlos

Un estudio demuestra que los humanos no logran identificar con precisión los mensajes falsos de audio, que ya se usan en estafas

Los 'deepfakes' de voz son difícilmente identificados por los humanos.Karl-Josef Hildenbrand (dpa/picture alliance/Getty Images)

Emanoelle Santos

03 ago 2023 - 05:20CEST

Compartir en Whatsapp

Compartir en Facebook

Compartir en Twitter

Compartir en Bluesky

Compartir en Linkedin

Ir a los comentarios

Suscríbete 1 año por 144 9,90 €
+ Regalo edición impresa en la App

Y accede al contenido.

Seguir leyendo

Ya soy suscriptor

En 2019, el director de una empresa británica fue víctima de una estafa después de recibir un falso mensaje de voz de su gerente en que pedía la transferencia de 220.000 euros a un proveedor. Un año después, un gerente de banco en Hong Kong recibió una llamada telefónica de alguien que le sonaba familiar. Basado en su relación existente, el banquero transfirió 400.000 dólares hasta que se dio cuenta de que algo estaba mal. Estos son solo ejemplos aislados, pero cada vez más frecuentes. Ambos casos involucran el uso de tecnología deepfake para clonar las voces, una forma extremadamente sofisticada de manipular un contenido. Identificarla es un desafío significativo que se volverá cada vez más complicado a medida que la inteligencia artificial avanza rápidamente. Y no hay buenas noticias. Mientras algunas herramientas computacionales pueden detectarlas con cierto grado de precisión, las voces falsas engañan a los humanos, incluso cuando las personas se entrenan.

Un estudio realizado con 529 personas, que se publica hoy en Plos One, demuestra que las habilidades humanas son poco eficaces a la hora de calificar sin un mensaje de voz es falso o verdadero. Los participantes fallaron una de cada cuatro veces que intentaron detectar correctamente estos deepfakes de voz y los esfuerzos para capacitarlos tuvieron efectos mínimos. La mitad del grupo recibió un entrenamiento previo, donde podían escuchar cinco ejemplos de voz sintetizada. A pesar de ello, la mejora fue tan solo del 3% en comparación al otro.

Los investigadores del University College London, en Reino Unido, querían además entender si el reto era más fácil o difícil según las características de diferentes idiomas, por lo cual condujeron las pruebas en inglés y mandarín. Los hallazgos sugieren que las capacidades son equivalentes y ambos públicos se basaron en atributos similares a la hora de calificar la autenticidad de los mensajes, como la naturalidad y si sonaba robótico. “Tanto los participantes de habla inglesa como los de mandarín mencionaron comúnmente las pronunciaciones incorrectas y las entonaciones inusuales en los clips de sonido al tomar decisiones”, explica Kimberly Mai, autora principal del estudio.

Más subjetivo que lo visual

Curiosamente, los participantes mencionaban las mismas características, independientemente de si la respuesta era correcta o no. Mai explica que esto se debe a la subjetividad que implica un audio. A diferencia de la detección de deepfakes visuales, donde se pueden ver objetos y escenarios para juzgar la autenticidad, la naturaleza auditiva del discurso hace que las percepciones sean más subjetivas. “Cuando se ven potenciales personas falsas, se puede contar el número de dedos en sus manos o si sus accesorios coinciden”, dice la investigadora postdoctoral de la universidad británica.

Para comparar la capacidad humana con la tecnológica, los investigadores condujeron la misma prueba también con dos detectores automáticos. El primero fue un software entrenado con una base de datos ajena al estudio, que alcanzó el 75% de asertividad, cifra similar a las respuestas humanas. El segundo, entrenado con la versión original y sintetizada de la voz, pudo identificar la naturaleza de los audios con 100% de precisión. Según subraya Mai, se da un mejor desempeño porque los programas avanzados son capaces de identificar las sutilezas de la acústica, lo que no puede hacer una persona.

Los sonidos complejos, como el habla humana, contienen una mezcla de diferentes frecuencias, que es la cantidad de veces que una onda sonora se repite en un segundo. “Los detectores automáticos examinan miles de ejemplos de voz durante su fase de entrenamiento. A través de este proceso, pueden aprender sobre peculiaridades en niveles específicos de frecuencia e irregularidades en el ritmo. Los humanos son incapaces de descomponer los sonidos de esta manera”, sostiene la investigadora.

Si bien los detectores automatizados han demostrado ser más efectivos que los humanos en esta tarea, también tienen limitaciones. Primero, no son accesibles para el uso cotidiano. Además, su rendimiento disminuye cuando hay cambios en el audio de prueba o en entornos ruidosos. Pero el mayor desafío es que sean capaces de acompañar los avances en materia de inteligencia artificial generativa, puesto que se producen contenidos sintetizados cada vez más realistas y de forma más rápida. Si antes eran necesarias horas de grabación para entrenar un programa, ahora se hace en unos pocos segundos, por ejemplo.

Fernando Cucchietti, experto ajeno al estudio, subraya que los resultados presentados tienen algunas limitaciones, dado que las condiciones del los experimentos “son muy de laboratorio” y no traducen las amenazas cotidianas de este tipo de tecnología. “No son realistas para situaciones donde los deepfakes puede ser problemáticos, por ejemplo, si conoces a la persona que están imitando”, opina el responsable del grupo de Análisis y Visualización de datos del Barcelona Supercomputing Centre en declaraciones al Science Media Centre España. Pese a ello, Cucchietti subraya que las conclusiones se asemejan a otros estudios similares, y por tratarse de un entorno bastante controlado, “los resultados están menos afectados por otros factores, por ejemplo, prejuicios o sesgos previos, como en el caso de los estudios de desinformación”.

Evitar las estafas

En el plano individual, las personas son poco fiables para detectar deepfakes de voz. Sin embargo, los resultados de la investigación muestran que al agrupar las opiniones de más individuos y tomar una decisión basada en una votación mayoritaria, hay una mejora en la detección. Kimberly Mai recomienda: “Si escuchas un clip de audio del que no estás seguro porque el contenido parece inusual, por ejemplo, si implica una solicitud de transferir una gran cantidad de dinero, es una buena idea discutirlo con otras personas y verificar la fuente”.

Mai sugiere que la ruta para mejorar los detectores automatizados es hacerlos más robustos ante las diferencias en el audio de prueba. Según dice, su equipo está trabajando para adaptar modelos básicos que han funcionado en otros campos, como el texto y las imágenes. “Dado que esos modelos utilizan grandes cantidades de datos para el entrenamiento, es de esperar que generalicen mejor las variaciones en los clips de sonido de prueba”, subraya. Además, opina que las instituciones tienen la obligación de tomar partido. “Deben priorizar la implementación de otras estrategias, como regulaciones y políticas, para mitigar los riesgos derivados de los deepfakes de voz”, argumenta.

Puedes seguir a EL PAÍS Tecnología en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.

Suscríbete 1 año por 144 9,90 €+ Regalo edición impresa en la App

Más subjetivo que lo visual

Evitar las estafas

Archivado En

Suscríbete 1 año por 144 9,90 €
+ Regalo edición impresa en la App