inteligencia artificial

El programa que amenaza a los teclados ya entiende 34 idiomas

El asistente de voz de Google es capaz de comprender dos millones de palabras en español. Los ingenieros aspiran a enseñarle 300 idiomas y en el camino se topan con dificultades similares a las de un principiante humano

Madrid - 23 oct 2015 - 10:34CEST

El asistente de voz de Google hace prácticamente innecesario el teclado en las búsquedas.google

En la última entrega de Stars Wars hasta la fecha, el Episodio III, al larguirucho y remilgado robot C-3PO le borran la memoria para que no recuerde jamás que el padre del bebé Luke Skywalker es el exjedi Anakin, luego conocido como Darth Vader. Por suerte, no le eliminan ni uno de los "seis millones de formas de comunicación" con los que se gana la vida como intérprete de un confín a otro de la galaxia. La versión real del androide con cara de pasmado son los asistentes de voz, como el de Google, aunque este solo alcance a entender y transcribir 34 idiomas. Es una nimiedad en comparación con el currículum galáctico, pero también un logro suficiente para plantar cara al componente más antiguo de los ordenadores: el teclado.

El asistente digiere —procesa— cada día el equivalente a 30 años de audio

El qwerty está sentenciado a desaparecer. "En dos años, será irrelevante", sostiene el ingeniero Pedro Moreno (Madrid, 1972), uno de los cerebros tras el asistente Search by Voice, un megaproyecto que la compañía de Alphabet desarrolla en su poco conocida sede de Nueva York. "Los teclados quedarán solo para corregir textos, y muy de vez en cuando. Los sistemas de voz también propondrán esas correcciones". De hecho, a Google ya se le pueden dictar textos largos. La traducción automática, los subtítulos inmediatos en una película extranjera o dar instrucciones a un coche mientras se conduce son solo otras aplicaciones jugosas de esta tecnología.

Curiosidades del buscador

Hay más búsquedas en Google hechas a través de dispositivos móviles que de ordenadores en 10 países, incluyendo Estados Unidos y Japón. Las que se hacen por voz en móviles se han incrementado más del doble solo en el último año.

Un 15% de las búsquedas que recibe Google todos los días no se había realizado antes.

Cada mes se realizan más de 100.000 millones de búsquedas en Google. El 30% de las que se hacen con el móvil están relacionadas con una ubicación.

El asistente de Google digiere —procesa— cada día el equivalente a 30 años de audio. Tan solo en español, entiende dos millones de términos. El Diccionario de la lengua española de la Real Academia recoge algo más de 93.000. Las formas verbales, nombres propios —lugares, apellidos, productos—, términos técnicos y hasta los nombres de las webs —feisbukpuntocom, elpaispuntoes— engrosan una gran parte del glosario hablado que podemos confiar que transcriba sin pegas el asistente.

"Una persona normal se defiende con veinte o treinta mil palabras a lo largo del año, pero la actualidad hace común, de golpe, términos que hasta ese momento eran muy inusuales o desconocidos por completo". Lo ejemplifica el ingeniero con el caso de la explosión en 2010 del volcán islandés Eyjafjallajökull (pronúnciese algo así como "eiafiak-laikutl"). Es difícil pensar en un mejor ejemplo de palabra extraña, imprevisible, que repentinamente aparece por doquier, también en textos en español. Google detectó automáticamente que el topónimo se empezaba a usar en los medios de comunicación y lo incluyó de inmediato en su enorme glosario. Las noticias de la prensa digital se le antojan un gran caladero de nuevos términos, pero tampoco es que sea inagotable: a partir de los dos millones de palabras "hay que empezar a rebañar en el fondo del barril para encontrar palabras que de verdad se usen alguna vez", descubre Pedro Moreno.

El asistente, al incorporar el ruso, se topó con la dificultad de entender tres géneros y seis declinaciones distintas

Esos dos millones son el vocabulario máximo al que puede aspirar los idiomas que reconoce el asistente de voz de Google. El primero —a qué extrañarse— fue el inglés, pero para el segundo quisieron ponerse el listón bien alto con una lengua llena de peculiaridades: "Fuimos a por el chino mandarín porque era tan diferente del inglés que sabíamos que nos iba a abrir la mente y nos obligaría a tener en cuenta elementos del lenguaje que quizá nos servirían para otras lenguas". El ingeniero madrileño, que confiesa hablar solo español e inglés, es el responsable de añadir nuevos idiomas y de mejorar la calidad de los ya disponibles.

La invención del espacio en blanco

Algunas de las dificultades que encuentra un principiante cuando abre el método de un idioma extranjero no son exclusivas del ser humano. Cuando un hispanohablante se enfrenta al ruso, le asustará la enorme variedad de palabras declinadas. El asistente de voz de Google también tuvo que entender cómo es eso de que una misma palabra pueda tener tres géneros y seis variaciones dependiendo si sirve para decir dónde está algo, de quién es o para qué se utiliza. Cuando un aprendiz aborda por primera vez el idioma francés, probablemente le lleve tiempo dominar la liaison o distinguir si un adjetivo que le dicen es masculino o femenino. En el chino, no solo le agobiará la enorme diferencia del vocabulario, sino, entre tantas otras rarezas, la escritura. Todas estas peculiaridades también resultaron difícil al principio para los programadores del software: "Siempre suelo bromear", abunda el experto, "con una gran invención occidental: el espacio en blanco. En el japonés o el chino la escritura es una larguísima cadena de caracteres unidos, que el lector nativo sí sabe separar en palabras, aunque puede que no siempre exista una convención de en qué lugar pondría el espacio".

Idiomas de Voice Search

El asistente de voz maneja los siguientes idiomas (en algunos casos, distingue como diferentes idiomas las variedades de determinados países): afrikáans, alemán, árabe (distingue las variedades de Egipto, Jordania, Líbano, Kuwait, Palestina, Israel, Emiratos Árabes Unidos, Arabia Saudí y Catar), búlgaro, catalán, checo, chino cantonés o yuè, chino mandarín (modalidad tradicional Taiwán, simplificado China y simplificado Hong Kong), coreano, eslovaco, español (variedades de Hispanoamérica y de España), euskera, finlandés, francés, gallego, hebreo, holandés, húngaro, indonesio, inglés (variedades de Australia, Canadá, India, Nueva Zelanda, Sudáfrica, Reino Unido y Estados Unidos), islandés, italiano, japonés, latín, malayo, noruego, polaco, portugués (variedades de Brasil y Portugal), rumano, ruso, serbio, sueco, turco y zulú.

Tras penar con el chino, las dos siguientes lenguas que aprendió el asistente, el japonés y el coreano, ya no le resultaron tan difíciles. "Cuando desarrollas un algoritmo que te separe las palabras en chino, puedes readaptarlo para el japonés", explica Moreno, "y el algoritmo para interpretar los diferentes tonos, también se aprovechaba para el tailandés o el vietnamita". En mandarín, dependiendo del tono con se pronuncie, ma puede significar madre, sésamo, caballo o regañar. La sílaba también sirve como partícula que marca que el hablante está preguntando algo.

Los modelos que desarrolla Moreno ya han sido capaces de capturar estos misterios de la fonética, la morfología o la sintaxis, pero no para comprender que "solo un 9% de las búsquedas en inglés sean por voz, frente a un 25% de los rusos", ejemplifica divertido Pedro Moreno.

Tras los gigantes de Extremo Oriente, le tocó el turno a los grandes idiomas nacidos en Europa, como el español. Con esta ortografía nuestra, tan envidiablemente fonética, ¿qué dificultad encontraron los ingenieros de Google para que su programa transcribiese a la perfección "electroencefalografista", "esternocleidomastoideo" o incluso "el cielo está enladrillado, quién lo desenladrillará"? "Las tildes, o más bien que la gente no las ponga o las ponga mal", confiesa Pedro Moreno; "tuvimos que adaptar el algoritmo para que las corrigiera". El esfuerzo, por fortuna, resultó útil para aplicarlo a idiomas con un número mayor de acentos que el castellano, como el francés o el checo.

A por los 300

Según la publicación The Ethnologue: Languages of the World, en el mundo hay 304 idiomas con más de un millón de hablantes, y representan solo algo más del 4% de las 7.102 catalogadas. "Aspiramos a incluir todas esas", señala Moreno, pero con orden y criterio: "Valoramos a un nuevo candidato por su número de hablantes y también por el interés estratégico de la compañía, aunque a veces también influye la curiosidad intelectual".

Lo próximo será incorporar lenguas de la India y el suajili, el idioma en el que se comunican al menos 45 millones de habitantes del África oriental. "África y la India son los dos grandes mercados emergentes para Google. Hay que tener en cuenta que allí el acceso a Internet se hará sobre todo por móvil, por las carencias en fibra óptica de sus infraestructuras".

También van a mejorar la comprensión del inglés que se habla en el continente africano. Precisamente, la diferencia fonética ha hecho que Google separe al menos en dos grupos principales a los anglohablantes: inglés británico e inglés americano. En el caso del español, comenzaron abordando el idioma como cuatro diferenciados: norteamericano, centroamericano, sudamericano y el hablado en España. Ahora han integrado en uno único todas las variedades del español de América.

Ni de ciencias ni de letras

El equipo ha dejado atrás la vieja distinción entre gente de letras y de ciencias: tan necesario resultan los ingenieros que desarrollan los algoritmos como los lingüistas que desentrañan la complejidad de un idioma. Abundan de hecho los perfiles mixtos, de informático-lingüistas. En plantilla están los que cubren las 30 lenguas más hablados. Cuando se abordan nuevos idiomas, como el télugu de la India (15º idioma más hablado del mundo, 75 millones de hablantes) o el suajili, contratan a especialistas durante un tiempo.

"A veces, su trabajo se muy complejo", reconoce admirado Pedro Moreno. En danés, por ejemplo, no había consenso entre los especialistas sobre cómo se pronunciaban varias palabras: "Anotaban todas las variaciones que aparecían. Es un idioma que está continuamente cambiando".

Los lingüistas socorren a los ingenieros cuando no saben bien qué puede estar fallando. Y para desarrollar gramáticas: "El caso más habitual es cómo transcribir los números escritos con cifras a texto y viceversa: pensemos en que en francés, por ejemplo, el guarismo 90 equivale hablado y escrito en letra a cuatro-veinte-diez. Pensemos también en cómo decimos un número de teléfono a alguien: ¿cada cifra suelta, agrupada de dos en dos cifras, de tres en tres...?", se pregunta el experto.

Ha sido difícil que las máquinas entendieran a los niños. Solo se ha conseguido, y en parte, hace un año

Las dificultades no son solo fonéticas o gramaticales. Entender a los niños ha traído quebraderos de cabeza y solo se ha conseguido, y aún parcialmente, hace un año. "También hay que pensar en todo lo que acompaña el habla", señala Moreno refiriéndose al ruido ambiente, los dialectos, los titubeos al hablar, las repeticiones, o lo que se llama code switching (cambio de código): hablantes de idiomas tan en contacto con otros que, en función del contexto, pueden incorporar palabras de uno u otro sin previo aviso. "Esto es muy habitual en algunos idiomas de la India, como las que usan el alfabeto devanagari. La gente escribía con esos caracteres palabras inglesas, pero por estar escritas en otro alfabeto no las reconocíamos como palabras extranjeras y nos perdíamos".

Otra dificultad en la que están trabajando es la puntuación. Los criterios para poner coma, punto o punto y coma son difusos: concretarlos en un algoritmo no es cosa sencilla. Tampoco resulta fácil comprender las frases largas. "El sistema puede entender bien 'pon una alarma a las 7', pero no tanto 'por favor, me gustaría que me pusieras el despertador para que suene a eso de las siete", ejemplifica Pedro Moreno, embarcado ahora en que la máquina se valga del contexto de quien le habla. Que sepa que cuando, por ejemplo, se refieren a una persona por su nombre de pila no hablan de todas las Lucías todos los Jaimes, sino de una hermana o un amigo concreto del hablante. Por cierto, uno de los nombres más arduos de reconocer es C-3-P-O. Los asistentes de voz lo pasan mal transcribiendo a texto las letras sueltas.

De entender una simple cifra a millones de palabras

Que una máquina entendiera simplemente un dígito del 0 al 9 cuando lo escuchaba era un prodigio hasta no hace tantos años. Bell Labs, en los 50, había logrado que una máquina reconociera una palabra siempre y cuando la pronunciara un único hablante. Para eso hacía falta emplear máquinas gigantescas.

Interesado en su aplicación masiva las escuchas en espionaje, el gran laboratorio de investigación militar de Estados Unidos, DARPA, creó en 1971, con la colaboración de IBM o la Universidad de Stanford, su programa Speech Understanding Research, que aspiraba a lograr un vocabulario de 1.000 palabras. Las carencias en informática —el ordenador más potente mediados los setenta solo alcanzaba los 4 MB de RAM— le impidieron llegar muy lejos. Con el crecimiento de la capacidad de los ordenadores y la hábil aplicación de las redes neuronales, la ciencia despegó.

Los laboratorios Bell, Hewlett-Packard, IBM o Microsoft habían sentado las bases de una tecnología, hasta que sufrieron el sorpasso de las nativas de Internet Google, Facebook o Baidu. En 2004, cuando el ingeniero Pedro Moreno puso por primera vez un pie en las oficinas de Google en Nueva York, las mecas del reconocimiento eran IBM y la Universidad de Cambridge. "Apenas contábamos con 30 ingenieros, que trabajaban sobre todo en cómo mejorar las búsquedas. Los vocabularios no solían superar las 80.000 palabras, y los sistemas se equivocaban en un 20% de los casos". La tasa de error por palabra actual de Google es del 8%.

Tu suscripción se está usando en otro dispositivo

¿Quieres añadir otro usuario a tu suscripción?

Añadir usuario Continuar leyendo aquí

Si continúas leyendo en este dispositivo, no se podrá leer en el otro.

¿Por qué estás viendo esto?

Flecha

Tu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.

En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.

Sobre la firma

José Manuel Abad Liñán

Es redactor de la sección de España de EL PAÍS. Antes formó parte del Equipo de Datos y de la sección de Ciencia y Tecnología. Estudió periodismo en las universidades de Sevilla y Roskilde (Dinamarca), periodismo científico en el CSIC y humanidades en la Universidad Lumière Lyon-2 (Francia).