Cada vez oirás más voces sintéticas. Y te parecerán humanas

La última revolución tecnológica retoma la tradición oral. Con múltiples usos, la clonación de voces puede catapultar las pujantes industrias de podcast y audiolibro

Enrique Alpañés

01 jun 2022 - 05:30CEST

Compartir en Facebook

Compartir en Twitter

Compartir en Bluesky

Compartir en Linkedin

Copiar enlace

La próxima vez que veas una película, escuches un podcast o un audiolibro, fíjate bien en quién te habla. Puede que sea un robot. De unos años a esta parte las máquinas han empezado a hablar y su parloteo es ya imparable. Comenzaron respondiendo a nuestras preguntas tímidamente. Alexa, Siri y un batallón de asistentes virtuales cambiaron la forma que teníamos de comunicarnos con las máquinas, haciéndola más natural y fluida. Pero sus voces eran monocordes y átonas, era difícil mantener la atención del oyente en un discurso largo. Desde entonces, las voces sintéticas se han perfeccionado hasta llegar al punto en que hoy es posible clonar la voz de cualquier humano de forma que sea indistinguible del original.

Sucedió hace un par de años con la serie The Mandalorian. Cuando apareció Luke Skywalker en pantalla, muchos se dieron cuenta de que el actor Mark Hamill había sido rejuvenecido por ordenador. Pero pocos notaron que su voz también era sintética. La empresa ucrania Respeecher se había encargado de hacerlo usando viejas grabaciones. Una persona leyó las frases del guion y el algoritmo cambió su entonación para que la voz sonara como la de un joven Hamill. Para Respeecher aquello fue un hito, pero no se durmieron en los laureles y siguieron perfeccionando su software. Ahora es capaz de usar la voz de un actor para que entone un discurso en otro idioma. La idea era demostrarlo en alguna película que fuera doblada de forma automática, usando la voz original de los propios actores. Pero no fue posible. Las bombas empezaron a caer.

Las calles de Kiev, sede de Respeecher, se llenaron de tanques y barricadas y los planes se truncaron. Ellos decidieron quedarse en Ucrania y seguir trabajando. Y demostraron el potencial de su tecnología traduciendo al ucranio los mensajes de apoyo que les mandan famosos internacionales. “Si le hablas a un hombre en un idioma que entiende, el mensaje le llega a la cabeza. Si le hablas en su propio idioma, le llega al corazón”. La frase es de Mandela, pero la repite Alex Serdiuk, director de Respeecher, en su apartamento de Kiev, que luce ordenado, ordinario y orgulloso en videollamada. Y parece cobrar un nuevo sentido. “Rusia quiere destruir nuestro idioma por ser parte de nuestra historia”, dice Serdiuk con aplomo quebradizo. “Por eso estos mensajes han tenido especial eco en la sociedad”.

Es un ejemplo del potencial de esta tecnología, pero quizá no el más habitual. También sirve para traer a la vida las voces de quienes ya no están, como sucedió en el concierto tributo al DJ Avicii. Para doblar películas con las voces de los actores originales. Para rejuvenecer o envejecer una voz o incluso para cambiarla de género. Esto tiene aplicaciones en el mundo del ocio, los servicios o incluso en la sanidad. “Acabamos de crear un departamento de salud que trabaja para que personas que han perdido el habla puedan expresarse con su antigua voz gracias a la clonación”, señala Serdiuk.

Mireia Farrús Cabeceran, profesora de Lingüística Computacional en la Universidad de Barcelona, explica que el salto cualitativo en esta tecnología se debe a cómo ha cambiado la forma de producir las voces. “Uno de los métodos más utilizados hasta ahora era la concatenación: se juntaban segmentos de voces pregrabadas y se unían para lograr el mensaje que interesara”, explica. Era como un puzle de sonidos. Pero en los últimos años el método ha cambiado. “Ahora se basa en el uso de redes neuronales, algoritmos matemáticos que tratan de imitar cómo se conectan las neuronas en nuestro cerebro”. Con este método, mucho más sofisticado y complejo, las voces pueden imitar las inflexiones, tonos y sentimientos de una persona real. Y esto abre un nuevo abanico de posibilidades.

Imagina que tu jefe, en lugar de enviarte informes, memorandos y balances, te pasara un audio. Que pudieras ponerte al día mientras das un paseo, haces deporte o limpias tu casa. No es ciencia ficción, es lo que hacen muchas empresas que acuden a Voikers. Esta compañía crea podcasts, audiolibros y otros contenidos de audio para marcas, sirviéndose de voces reales y sintéticas. “Estas últimas han avanzado muchísimo”, señala su director, Roberto Carreras. “En inglés es prácticamente imposible distinguir una voz sintética de una original. En español aún no, pero llegaremos, porque la cosa está avanzando a un ritmo exponencial”, afirma. Ayudará, y mucho, el Proyecto Estratégico para la Recuperación y Transformación Económica de 1.100 millones aprobado por el Gobierno esta semana. El dinero se destinará a la nueva economía de la lengua, para conseguir una Inteligencia Artificial que piense en español. Las máquinas están aprendiendo idiomas, y es importante no quedarse atrás. “Creo que dentro de cinco años, el audio estará mucho más presente en toda nuestra vida”, sentencia Carreras.

No es el único que lo ve así. Según un análisis de McKinsey & Company, una consultora de gestión, el mercado de las voces artificiales alcanzará más de 1.000 millones de dólares en los próximos cinco años. Los podcasts y los audiolibros son las industrias donde más impactará esta tecnología. Y no son dos mercados menores. Según Statista, la audiencia global del podcast supera los 621 millones de oyentes al año. En 2021 movió más de 14.000 millones y se espera que para 2028 supere los 94.000 millones. Por su parte, el mercado editorial ha encontrado en el audio un empuje en sus balances. “El audiolibro está siendo la mayor revolución desde la aparición del libro de bolsillo”, asegura Raúl Pérez, director del Área Editorial de Planeta. “Lleva creciendo, de forma constante, desde hace cinco años”, reconoce. Y todos los indicadores sugieren que seguirá haciéndolo. Los ingresos totales de las editoriales de libros de EE UU disminuyeron ligeramente entre 2015 y 2020 y los de los libros electrónicos se redujeron, pero los de los audiolibros aumentaron un 157%, según datos de la Asociación de Editores Estadounidenses. Estas cifras podrían dispararse cuando la tecnología permita convertir en audio cualquier libro, y no solo los grandes superventas. En la actualidad los suelen locutar actores y es un proceso largo y costoso, no todas las editoriales pueden permitírselo. Pero la mejora de las voces sintéticas podría cambiar este panorama.

Solo llevamos unos años enseñando a los ordenadores a hablar, pero estos han demostrado ser unos alumnos brillantes. Su perfeccionamiento ha permitido que nuestras palabras se despeguen de la pantalla y vuelen en forma de sonidos. Y que un nuevo coro de voces, reales y sintéticas, conquiste internet. Han podido ayudar la fibra óptica, el 5G o la inteligencia artificial. Pero al final esto no va tanto de tecnología como de comunicarnos. Y la voz, aunque sea sintética, sigue siendo el canal más antiguo y eficiente de contarnos historias.

Apúntate aquí a la newsletter semanal de Ideas.

Archivado En