Las máquinas también aprenden euskera, catalán, gallego...
Los gobiernos vasco y navarro y la Oficina Pública de la Lengua Vasca de Iparralde lanzan la plataforma Gaitu para crear una base de datos con voces y acentos diferentes
Wikipedia recoge en este momento 422.167 artículos escritos o traducidos al euskera. Esta lengua se sitúa entre las cuarenta más utilizadas en esta enciclopedia colaborativa, llegando incluso a superar en número de entradas a idiomas como el finlandés o el noruego, apunta Jabi Arakama (Puente la Reina, 1981), director de Euskarabidea-Instituto Navarro del Euskera. Un hito, dado que el número de vascoparlantes apenas supera el millón de personas. Ahora, se han planteado un nuevo reto: enseñar a la Inteligencia Artificial a hablar en euskera. Para ello, los gobiernos vasco y navarro y la Oficina Pública de la Lengua Vasca de Iparralde (país vasco francés) han lanzado la plataforma Gaitu, que quiere crear una base de datos pública y gratuita con las voces y acentos de la ciudadanía para que las empresas, entidades y particulares puedan hacer uso de ella. Se enmarca en una iniciativa más amplia, Common Voice, que ha creado a nivel internacional un banco público de voces en más de un centenar de lenguas.
Estas tres administraciones –unidas a través del convenio de colaboración Hiruko Ituna- apenas llevan unas semanas difundiendo esta herramienta, pero cuentan ya con más de 200 horas de grabaciones. Los voluntarios leen en voz alta alguna de las 100.000 frases disponibles y las registran en el programa. Además, pueden validar las voces de otras personas. Es decir, comprueban que los audios son correctos y se corresponden con las frases proporcionadas por la aplicación. No se busca que las grabaciones sean perfectas, sino que se comprendan. “Cualquier frase pronunciada de una manera entendible es susceptible de darse como válida porque es lo que una máquina tiene que llegar a entender”. De cada tres horas grabadas, dos están ya validadas, explica Arakama. Son datos muy buenos que se deben, entre otras cosas, a que el euskera tiene detrás una comunidad lingüística muy activa y, sobre todo, muy joven. El idioma “se está recuperando a través de la juventud”, asegura. En Euskadi, por ejemplo, la gran mayoría de jóvenes menores de 25 años habla euskera. En Navarra, uno de cada cuatro personas entiende algo de euskera o lo habla bien y la mayoría de ellos son jóvenes. Hay diferencias entre las comarcas: en la zona vascófona, se calcula que ocho de cada 10 jóvenes lo habla, mientras que en la mixta y la no vascófona esa cifra se reduce muchísimo.
La juventud de la comunidad lingüística euskaldun está impulsando precisamente la adaptación de las nuevas tecnologías a esta lengua. “Los datos son muy buenos en cuanto al uso del euskera en redes sociales. Eso es una buena noticia porque un gobierno puede querer dinamizar una lengua en cualquier ámbito, pero si no tienes una comunidad lingüística detrás a la que le interese, pues no haces nada. Tenemos una comunidad muy, muy activa en las nuevas tecnologías, lo que demuestra que quiere el desarrollo integral de su lengua, que está apostando por vivir en euskera”, señala Miren Dobaran, viceconsejera de Política Lingüística del Gobierno vasco. En esta línea, Dobaran explica que, en euskera, Gaitu significa “capacitar”, capacitar a las máquinas, aunque tiene también un “sentido simbólico de empoderamiento, de empoderarnos como hablantes, como comunidad lingüística, como partícipes de esa capacitación”. No solo se refiere a quienes residen en Euskadi, Navarra o Iparralde, también a la diáspora. “Es importante que todos los dialectos tengan su espacio”, subraya Arakama. En euskera, esos dialectos son conocidos como euskalkis y tienen diferencias fonéticas o gramaticales. Hay, de hecho, un euskera “común”, el batua. El objetivo es entrenar a las máquinas para que todos ellos queden representados, para que sea la máquina la que se adapte al habla natural de la persona y no al revés. “Cuantas más horas de grabación tengamos mejor porque se irá perfeccionando cada vez más la inteligencia artificial. Se estima que a partir de unas 1.000 horas se pueden tener unos niveles dignos”, añade Arakama.
Las comunidades lingüísticas pequeñas son las que más impulso están dando a sus respectivos idiomas. Por ejemplo: el catalán supera ya en número de horas grabadas y validadas al inglés, al castellano o al chino. Esto puede deberse, considera Arakama, a la fortaleza de lo que en euskera se denomina auzolan, “trabajo en común”. No hay ninguna institución que pueda encargarse de contratar a un número suficiente de personas para dedicarse a grabar y validar miles de horas, así que se ha solicitado a la ciudadanía “que sea ella quien se grabe otras voces”. Dado que cada vez se utiliza más la voz para las nuevas tecnologías, apunta Dobaran, “quienes queremos vivir en euskera o en lenguas minoritarias, sabemos que tenemos que hacer el esfuerzo de enseñar a esas máquinas”. “Creo que lo que ha animado a la gente es ese ‘vamos a enseñar a las máquinas a hablar en euskera y en el día de mañana, los call centers nos podrán entender, nuestro coche, nuestros GPS”.
Ese es el objetivo: ofrecer los datos del banco de voces a las empresas tecnológicas grandes para que accedan a él de forma gratuita. Tanto empresas como particulares o administraciones públicas. Cualquiera puede acceder al banco. Eso sí, matiza Arakama, con garantías legales y de destino final de las voces. Más que las empresas, consideran que quien se va a beneficiar del proyecto es la ciudadanía vascoparlante. “Muy pocas empresas por su cuenta van a ponerse a desarrollar esta base de datos para una comunidad lingüística de un millón de personas. Necesitan cierta masa crítica”, concluye.
Gaitu.eus es una de las iniciativas lanzadas para fomentar el uso del euskera, pero hay más que están dando buenos resultados, como Euskaraldia. Un ejercicio social masivo que pretende cambiar los hábitos lingüísticos de la ciudadanía y fomentar las oportunidades de hablar en euskera. Hay quienes, por vergüenza o por no saber si su interlocutor les entiende, inician las conversaciones directamente en castellano, explica Arakama. Con esta iniciativa, que se realiza desde hace unos años, coincidiendo con el día del euskera –3 de diciembre-, se anima a quienes lo deseen a portar una chapa sobre la ropa: belarriprest (entiendo euskera, lo hable o no, así que háblame en euskera, aunque sea una conversación bilingüe) o aho bizi (iniciaré la conversación en euskera y la seguiré si me entienden). De este modo, señalan desde Euskarabidea, se proporciona un elemento identificativo que favorece que el euskera tenga una mayor presencia en el espacio público. De momento, aseguran, funciona. Dos de cada tres personas participantes en la última edición han declarado haber cambiado sus hábitos lingüísticos a través de esta iniciativa.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
¿Tienes una suscripción de empresa? Accede aquí para contratar más cuentas.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.