_
_
_
_
Visión y tecnología

Cathy Pearl (Google): “El reconocimiento de voz saltará a espacios públicos”

Aún nos da vergüenza hablarle a las máquinas, pero eso cambiará gracias al ‘silent speech’, una tecnología capaz de leer el habla antes de que emitamos sonidos. Cathy Pearl, directora de diseño de conversaciones en Google, nos habla de ello.

Manuel G. Pascual
Cathy Pearl, licenciada en Ciencias Cognitivas y con máster en Ciencias de la Computación, es la máxima responsable de diseño de conversaciones en
 Google.
Cathy Pearl, licenciada en Ciencias Cognitivas y con máster en Ciencias de la Computación, es la máxima responsable de diseño de conversaciones en Google.Fernando Sánchez

Lograr que un dispositivo nos entienda cuando le hablamos es extremadamente complejo. Cathy Pearl lleva más de 20 años trabajando en ello. “Cuando empecé, el reconocimiento de voz se circunscribía a los sistemas de telefonía automática. Básicamente, empresas tratando de ahorrar dinero automatizando tareas, haciendo que los clientes le hablaran a ordenadores en vez de a humanos, que es más caro”, explica la directora de diseño de conversaciones en Google. Quién le iba a decir entonces que acabaríamos hablándole al móvil... y que este nos entendería (relativamente bien).

Un mes después de la entrevista, realizada en Madrid durante el encuentro de innovación Experience Fighters, saltó la polémica: Google confirmó que “expertos del lenguaje” repartidos por el mundo escuchaban el 0,2% de las conversaciones entre usuarios y asistentes virtuales. La respuesta de Pearl cuando se le preguntó al respecto fue ceñirse al comunicado oficial de la compañía, en el que Google asegura que las escuchas se hacían para ayudar al sistema “a entender mejor los idiomas” y en el que se confirma que estas “revisiones humanas” han sido canceladas.

Más información
“Oye, Siri, tenemos que hablar”: los asistentes de voz cobran importancia
El español sigue siendo una lengua extranjera para la inteligencia artificial
P. ¿Cuál es la estrategia de Google con el reconocimiento de voz?
R. Estamos invirtiendo mucho en diseño de conversaciones. El año pasado publicamos un manual de buenas prácticas para que se pueda aplicar al desarrollo de esta tecnología. Creemos que estamos ante otra potencial interfaz. No decimos que la voz vaya a ser lo único, pero será un canal importante.
P. A mucha gente le inquieta que los smart speakers y otros aparatos nos estén espiando…
R. Cuando usas Google Assistant puedes ver en la app de tu teléfono si Ok Google está operativo. El teléfono te avisa cada vez que algo se ha grabado, y las grabaciones se pueden borrar permanentemente. También estamos trabajando en tecnologías que harán que el reconocimiento de voz suceda localmente en tu teléfono, sin enviar nada a la nube.
P. ¿Qué están investigando?
R. En enero se anunció el modo intérprete, que permitirá poner el teléfono como traductor en tiempo real para varios idiomas. Otra cosa de la que me siento particularmente orgullosa es del uso de la voz en la accesibilidad y el diseño inclusivo. Los que quizás se beneficien más de esta tecnología son quienes tienen problemas de movilidad, de visión o de expresión.
P. ¿Qué feedback tienen de los usuarios? ¿A la gente le gusta hablar con los aparatos?
R. Sí, creo que hay entusiasmo. Un estudio que sacó la National Public Radio dice que la mitad del tiempo en el que la gente usa smart speakers está con otras personas. Me gusta ese aspecto de comunidad. Dicen que el 41% de nuestras vidas va a pasar delante de una pantalla, así que poder hablar con los aparatos significa también separarnos algo de ellos. Puedes lanzar una pregunta rápida mientras estás en la mesa comiendo, lo que es mucho menos farragoso que ponerte a buscar algo en el móvil. Y así todo el mundo oye la pregunta y la respuesta, de modo que la conversación no se interrumpe. El reconocimiento de voz puede aliviar algo nuestra adicción a las pantallas.
P. ¿Cómo se imagina el reconocimiento de voz en 10 años?
R. Se convertirá en algo muy común. Ahora, por ejemplo, los smart speakers se ven sobre todo en los hogares, pero pronto estarán también en tiendas, restaurantes o en el trabajo. Una de las razones ahí es porque cuando estamos en público no nos gusta hablar en voz alta a los dispositivos. Ahí entra la tecnología llamada silent speech, que se ha prototipado en el MIT Media Lab bajo el nombre de Alter Ego. El aparato cuenta con sensores en la mandíbula que recogen las señales del prehabla: antes de hablar mandamos microseñales. La idea es captarlas y codificarlas, de forma que podamos comunicarnos sin que nadie nos oiga. Esta tecnología disparará el uso del reconocimiento de voz.
P. ¿Ha detectado distintas formas de relacionarse con los lectores de voz dependiendo del país?
R. No, más allá de las particularidades de cada idioma. Es importante cuando diseñas para distintos países no limitarse a traducir. Nosotros tenemos equipos de localización para ayudarnos a entender las cosas que en una cultura puedan sonar diferente que en otra.
P. ¿Cuáles han sido los avances clave de los últimos años en esta tecnología?
R. En primer lugar, los micrófonos, que ya no necesitas tener delante para que te capten bien. La precisión del speech recognition es enorme. Y el entendimiento del lenguaje natural ha mejorado mucho, aunque todavía queda mucho camino por delante.
P. ¿Con qué límites se encuentran actualmente los desarrollos relacionados con el reconocimiento de voz?
R. Una de las mayores limitaciones es lo que llamamos descubrebilidad (discoverability). Digamos que tienes un smart speaker: ¿cómo sabes qué puede hacer? Seguramente sea capaz de hacer miles de cosas, ¿pero cómo sabes tú qué decir exactamente para que funcione? A veces se convierte en una especie de juego a las adivinanzas, y eso puede resultar frustrante para el usuario. Otra cosa que está muy limitada tiene que ver con el entendimiento del lenguaje natural, es decir, con la comprensión del contexto. Los ordenadores no tienen mucho sentido común. Cosas que pueden ser tremendamente obvias para una persona no las capta el sistema. Puede ser difícil tener conversaciones multiturno en las que el ordenador realmente se dé cuenta del contexto de lo que se ha dicho y de cómo eso influye en lo que haya que hacer a continuación. Hay proyectos que tratan de adivinar el estado de ánimo del usuario por su tono de voz.
P. ¿Ve eso factible?
R. Queda mucho para reconocer emociones. Por ejemplo, si estoy hablando contigo y te digo: “¿Por qué estás tan enfadado?” y tú me respondes: “¡No estoy enfadado!”, a la máquina no le resultará evidente que sí lo estás. Captar esos matices no es sencillo, aunque sean determinantes en una conversación.
P. ¿Cree que se superarán esas trabas?
R. Algún día, aunque no está nada claro cuándo.
P. ¿Ayudará el 5G en algo al reconocimiento de voz?
R. Quizás. Ahora hay algo de latencia cuando hablas con un sistema. A veces hay una pausa antes de recibir la respuesta que puede resultar desconcertante. Nuestras réplicas en las conversaciones suelen ser muy rápidas, en torno a 200 milisegundos, el equivalente a un pestañeo. Si te pregunto por ejemplo si me llevas mañana a un sitio y tardas más que eso en responder, un segundo, ya sé que la respuesta es no. Esa pausa contiene información importante que me estás diciendo de forma implícita. En la comunicación con las máquinas podemos llegar a pensar que van a decir que no, cuando en realidad lo único que pasa es que todavía son demasiado lentas.
P. ¿No cree que a veces nos sentimos algo estúpidos hablando a aparatos que no nos entienden completamente?
R. Hay veces que la gente se siente culpable de que la máquina no le entienda, cuando la responsabilidad no es suya, sino de la tecnología. Una de las máximas que tenemos en el diseño de conversaciones es que el buen diseño significa que el usuario pueda interactuar naturalmente, que no tenga que detenerse a pensar cómo contestar o preguntar.

Suscríbete para seguir leyendo

Lee sin límites
_

Sobre la firma

Manuel G. Pascual
Es redactor de la sección de Tecnología. Sigue la actualidad de las grandes tecnológicas y las repercusiones de la era digital en la privacidad de los ciudadanos. Antes de incorporarse a EL PAÍS trabajó en Cinco Días y Retina.

Archivado En

Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
_
_