Charlar y sonreír con asistentes virtuales
La consultora tecnológica Everis ahonda en la próxima frontera de la inteligencia artificial: conversaciones humanas y empáticas con máquinas
Al otro lado del teléfono, una voz cálida que recibe las preguntas, como ha ocurrido toda la vida. Pero esa voz no sale de una garganta humana. Ha sido diseñada por orfebres de todas las disciplinas para cumplir un doble cometido: resolver las consultas del cliente y fidelizarlo.
Aunque suene a futuro, Marcos Obed, director del área de Experiencia Digital y responsable de los Servicios Conversacionales Europa en la consultora tecnológica Everis, parte del Grupo NTT DATA, insiste en que estamos hablando ya de una realidad palpable. Su compañía, por ejemplo, ofrece soluciones tecnológicas como eva, una plataforma de bots para actuar como centro de atención para los clientes. Tanto de manera escrita como hablada, los bots pueden asumir millones de clientes y analizar datos de sus conversaciones para perfeccionarse en el tiempo como asistentes virtuales. Es una muestra de un mercado gigantesco, que crecerá a una media del 37,7% de aquí a 2027 hasta superar los 36.000 millones de euros, según datos de Grand View Research.
La capa tecnológica que hace posible a esta nueva generación de asistentes virtuales no es nueva. Es tan vieja como la humanidad: el habla. El lenguaje natural, más precisamente, su creación mediante medios tecnológicos —una disciplina de la inteligencia artificial conocida como NLP (Procesamiento de Lenguajes Naturales)—, es el punto de partida. En conjunción con otra capacidad humana, la visión. “De lo que estamos hablando, en cuanto a asistentes virtuales, es de la capacidad de interpretar las emociones de un cliente cuando este habla con el asistente. Y no algo tan simple como ‘este está alegre o enfadado’. Hablamos de composiciones tan complejas como detectar si una persona está nostálgica”, apunta Obed.
La velocidad de computación ha sido el gran salto tecnológico en el sector. Del machine learning y el deep learning se ha pasado, desde 2017, a los modelos transformer, que han tenido un impacto clave en abordar tareas como la traducción. “Google T5, por ejemplo, está entrenado con 11 billones de parámetros. GPT-3 alcanza los 175 billones, después de hacer un web-scraping —técnica de extracción de información de internet mediante software automatizado que emula la navegación digital de una persona— a Wikipedia entre otras fuentes. Significa que, básicamente, es capaz de contestarte de todo. Esto nos permite visualizar los grandes cambios que habrá en nuestras relaciones con las máquinas”, resume Obed.
Otra de las tecnologías clave en el ramo son las redes de traducción automática neuronal, que han pasado de las voces robóticas generadas por fonemas a sintetizar directamente ondas de sonido que el oído humano percibe como una voz genuina.
La creación de asistentes virtuales no está centrada en la tecnología, sino en la experiencia de usuarios. Nuestros diseñadores de conversación vienen de humanidadesMarcos Obed, directivo de Everis, del Grupo NTT DATA
El impacto para las compañías de este tipo de asistentes virtuales es enorme. En primer lugar, en lo obvio, reducir el gran coste de las centralitas para la asistencia a los clientes. Pero más allá de este recorte de costes, está el calibrar de una manera mucho más precisa qué experiencia se le quiere ofrecer al usuario para fidelizarlo. En ese objetivo, juegan un papel clave los equipos multidisciplinares donde las humanidades encuentran un sorprendente lugar central en el seno tecnológico. “Parte importante de nuestros equipos para la creación de estos asistentes virtuales no están centrados en la tecnología, sino en la experiencia de usuarios. Nuestros profesionales, a los que llamamos diseñadores de conversación, vienen de disciplinas como la filosofía, las humanidades y la lingüística. De hecho, nosotros, con las marcas que nos contratan, no hablamos de la tecnología, sino de contar una historia, porque la voz del asistente virtual va a ser su voz de cara al cliente”, asevera Obed.
El impacto de estas tecnologías va a llegar mucho más allá de la relación cliente-empresa. La Universidad de Cambridge publicaba ya en enero de 2017 un amplio artículo recopilatorio de todas las tecnologías de lenguaje de proceso natural y su impacto en la salud mental. Pero también un proceso tan clave y delicado como la entrevista de trabajo se puede ver afectado por esta tecnología revolucionaria que podría actuar como un polígrafo preciso para evaluar al candidato. “Nosotros ya hemos tenido alguna experiencia piloto en este sentido. Aunque, efectivamente, esto va a requerir una legislación que defina el marco legal y proteja la privacidad de las personas en todos los ámbitos de su interacción con las máquinas”, apostilla Obed. Un marco que deberá acelerar su implantación para dar respuesta a una tecnología de evolución imparable y consecuencias profundas: en 2024 habrá 8.400 millones de dispositivos con asistentes de voz. Es decir, un número análogo (de facto, ligeramente mayor) a la población mundial.
Cibercrímenes de la voz
En septiembre de 2019, The Wall Street Journal informaba de un increíble caso de cibercrimen. El CEO de una compañía británica recibió una supuesta llamada de su jefe —la víctima aseguró haber reconocido la musicalidad y acento alemán de su superior— para transferir “en el plazo de una hora” 220.000 euros. Pero lo que escuchó, en realidad, era una voz artificial creada mediante lenguaje natural, que confirmó las predicciones de los expertos en ciberseguridad sobre el nuevo coto de caza en los crímenes de suplantación. “Llegaremos al momento en el que se pueda reemplazar artificialmente tu voz y habrá que anteponerse a estas situaciones. Lo mismo pasaba con el computer vision, se le podía engañar en un principio empleando una foto para que la reconociera como el usuario. Pero se avanzó para exigir también el movimiento de la persona durante la autenticación. Con la voz, tendrá que suceder lo mismo, porque esto es lo de siempre: los criminales van por delante”.