Latxa, un ChatGPT en euskera contra la brecha digital de los idiomas
El Centro Vasco de Tecnología del Lenguaje crea un chatbot en vasco con el que aspira a contribuir en la democratización de los modelos de lenguaje
ChatGPT dice poder “generar texto coherente y comprensible” en unos 25 idiomas. El euskera no está en esa lista. Este modelo de lenguaje tiene algo de capacidad para interactuar en vasco, pero carece de la precisión con la que produce texto en lenguas con miles de millones de hablantes. Parece lejano pensar que esté entre las prioridades de la empresa OpenAI mejorar las competencias de su modelo para un idioma que hablan unas 800.000 personas en el mundo. Esto alimenta la “brecha digital” que existe en este tipo de tecnología, según Eneko Agirre, director del Centro Vasco de Tecnología del Lenguaje (HiTZ) de la Universidad del País Vasco (UPV). Por esta razón, el grupo de especialistas que dirige está trabajando en un chatbot propio del euskera, que han bautizado Latxa y ya supera al GPT-3.5 “en todas las evaluaciones”. Pero no se quedan ahí: “Seremos los primeros en crear un modelo tan bueno como el GPT-4″.
Agirre, de 56 años, ha dedicado toda su trayectoria profesional como informático al procesamiento de lenguajes. A sus 21 años, mientras cursaba el grado en la UPV, obtuvo una beca para trabajar en el primer analizador para el euskera. “Es un tema muy atractivo si tienes inquietudes intelectuales sobre cómo funciona el pensamiento, el habla, los idiomas, cómo es que hay tantas lenguas distintas y cómo informatizar el lenguaje”, explica por videollamada.
Desde 2020 este informático dirige el HiTZ, un centro que tiene el objetivo de promover la investigación, la formación, la transferencia tecnológica y la innovación en inteligencia artificial centrada en el lenguaje y el habla. El equipo multidisciplinar está compuesto tanto por informáticos como por lingüistas e ingenieros. El proyecto para crear Latxa nació a partir de la preocupación de que los idiomas como el euskera carecen de las suficientes herramientas digitales que sí poseen las lenguas mayoritarias.
“Hay 1.000 veces más datos para el inglés que para el euskera y 100 veces más para el castellano que para el euskera. Nos preocupaba que para este idioma no existieran herramientas para que la gente usara, porque esto puede hacer que la brecha digital aumente entre los idiomas más grandes y los más pequeños”, señala el director del HiTZ. Agirre afirma que ChatGPT funciona “peor” cuanto más pequeño sea el idioma. En el caso del euskera, asegura, aunque puede generar texto, “siempre hay errores gramaticales”.
Latxa fue bautizado con ese nombre porque está inspirado en el modelo LlaMA de la empresa Meta. Agirre cuenta que, por un lado, no querían esconder que se inspiraban en LLaMA, y que como este nombre recuerda al animal, lo asociaron con la lana de las ovejas latxa del País Vasco.
Alimentar con texto
Para crear un sistema como Latxa, explica Agirre, se necesitan tres elementos. Primero, un equipo de “investigadores e ingenieros punteros”, porque “no hay mucha gente en el mundo que lo pueda hacer”. Lo segundo es que hace falta texto. Cuanto más texto consuma el modelo, mejor calidad tendrán los resultados. Y, por último, supercomputación, porque procesar todos estos textos solos se puede hacer con esta tecnología. Para Latxa, en el HiTZ consiguieron acceder al supercomputador LEONARDO, ubicado en el Tecnopolo de Bolonia (Italia).
Con respecto al algoritmo, Agirre apunta que se trata del mismo que usan todos los modelos de lenguaje. Con este algoritmo hay que llevar a cabo un proceso para que “aprenda sobre el mundo”, que consiste a aportarle textos para que procese la información y aprenda a hacer conexiones entre palabras. “Entonces, el algoritmo lo que aprende es qué palabras son las más probables para una combinación de cualquier texto. Parece poco, pero tiene que aprender mucho sobre gramática, sobre morfología y sobre el mundo”, señala el informático.
De acuerdo con Agirre, “casi todo” lo que sabe hacer ChatGPT lo ha aprendido con este proceso de leer y aprender el sentido común, que es el primer gran paso. Y el más costoso, ya que según el experto requiere millones de dólares. En el caso del HiTZ, obtuvieron recursos del Gobierno Vasco y de los Fondos Europeos de Recuperación para desarrollar este proyecto.
Una vez que el sistema puede comprender el lenguaje, Agirre explica que lo que sigue es “enseñarle a interactuar con los usuarios”, un proceso amplio que contempla desde no decir “malas palabras”, a que no explique “cómo hacer una bomba o cómo matar a tu suegro”.
“El rendimiento [calidad] de un chatbot basado en modelos de lenguaje de gran tamaño para un idioma depende en gran medida en la cantidad de textos de ese idioma, con lo que casi todos los idiomas tienen una perdida respecto al inglés”, explica Agirre sobre los posibles errores que puede cometer Latxa. “Se sabe que cuanto menos textos menor rendimiento, pero no se conoce con certeza los detalles de este fenómeno, y es un tema muy activo de investigación, por las repercusiones prácticas que tiene. Nosotros también estamos en ello”, añade.
La carrera de los modelos de lenguaje
El ministro de Transormación Digital y de la Función Pública, José Luis Escrivá, presentó en mayo una iniciativa del Gobierno para impulsar la puesta en marcha de un modelo de lenguaje en castellano y lenguas cooficiales. Escrivá y el ministro de Cultura, Ernest Urtasun, presidieron además el primer encuentro de las instituciones implicadas en el Convenio de Gobernanza para Generar Modelos y Corpus para una infraestructura pública de Modelos de Lenguaje. Desde que comenzó la nueva revolución de la inteligencia artificial generativa, en la Unión Europea ha surgido preocupación por no quedarse rezagados en el desarrollo y regulación de esta tecnología.
“La tecnología en sí es un fin, porque ahora mismo hay una carrera en todo el mundo para dominarla. Si un país no invierte en estos modelos, no va a tener a la gente preparada”, explica Agirre. Para el informático, no hay que quedarse de brazos cruzados esperando a que OpenAI desarrolle un buen modelo para el castellano o cualquier otro idioma. El director del HiTZ considera que este poder no debe quedar solo en unas pocas manos y que se deben desarrollar modelos abiertos que puedan usar las compañías en España y de Europa sin tener que depender de Silicon Valley.
Latxa es un ejemplo de lo que puede lograrse localmente si se invierte en modelos de lenguaje. “No solo seremos de los primeros grupos que consigue crear un modelo de lenguaje que sea tan bueno como GPT-4 en competencia lingüística, sino que ya somos mejores que GPT-4 en gramática de euskera”, explica Agirre.
El director del HiTZ tiene claro que el desarrollo de esta tecnología tiene una trascendencia cultural e identitaria: “Al igual que era importante tener prensa, radio, televisión o educación en un idioma, la tecnología también es importante, porque si no la brecha que hay entre idiomas muy usados y menos usados irá aumentando”.