La lengua de Cervantes, también para la inteligencia artificial
El inglés y, cada vez más, el chino, dominan la comunicación de las máquinas con los humanos
La revolucionaria inteligencia artificial (IA), como la tilda María Blasco, directora del CNIO, capaz tanto de predecir la estructura de casi todas las proteínas de la Tierra (lo que hace el AlphaFold de Google) como de realizar un análisis de textos, tiene que hablar español. Esta reivindicación unánime del encuentro ...
La revolucionaria inteligencia artificial (IA), como la tilda María Blasco, directora del CNIO, capaz tanto de predecir la estructura de casi todas las proteínas de la Tierra (lo que hace el AlphaFold de Google) como de realizar un análisis de textos, tiene que hablar español. Esta reivindicación unánime del encuentro El español como idioma de la ciencia y la tecnología se hace clamor en la charla Inteligencia Artificial en español. “Si no potenciamos el español en IA perdemos oportunidades, culturales y de negocio”, advierte Richard Benjamins, chief AI and Data strategist de Telefónica. “En el mundo digital, el español no está todavía en primera clase; todo está dominado por empresas de Estados Unidos, que generan tecnología que funciona en español pero primero lo hacen en inglés. Cada vez hay más corpus en español; en los últimos tres o cuatro años se están desarrollando programas nativos que solo hablan en ese idioma, pero nada que ver con los modelos que también hablan español pero se desarrollan en Estados Unidos. Hace falta dar un paso para ganar en importancia”, enfatiza Benjamins.
“Es importante cambiar la tendencia”, subraya. Google lo está haciendo, interviene Miguel Escassi, head of Government Affairs and Public Policy de Google Spain. A través de tres grandes líneas de actuación: promocionando los productos y servicios de la compañía global en mercados con hispanohablantes; evolucionando los asistentes de traducción, que ahora son capaces de tener en cuenta los contextos culturales y sociales, y con técnicas de machine learning para que sus herramientas hablen un español más correcto. En este último punto, destaca cómo desde el proyecto LEIA (Lengua Española e Inteligencia Artificial), liderado por la Real Academia Española y englobado en el PERTE Nueva economía de la lengua, han salido unas serie de sugerencias gramaticales para que Google Android sea cada vez mejor. Próximo paso: el buscador del gigante tecnológico. “LEIA es ejemplo de una buena colaboración público-privada”, asegura Escassi, que resalta los buenos resultados que da confeccionar todo un tejido de proyectos público-privados con un mismo objetivo: mejorar el uso del español en internet.
“Al final, tú tienes que enseñar a la máquina a hacer una tarea específica, y eso se hace con corpus anotados; el PERTE nos va a ayudar mucho a potenciarlos”, afirma Marta Guerrero, lingüista computacional y coordinadora de los proyectos de PLN en el Instituto de Ingeniería del conocimiento (IIC).
Se entiende por corpus anotado una colección de producciones de una lenguas enriquecida con datos lingüísticos, que hay que escribir a mano; en ellos se basan los modelos fundacionales del lenguaje, el pilar sobre el que se construyen las herramientas de inteligencia artificial. De lo que se deriva un problema de cantidad: “Necesitamos mucho trabajo para reducir la distancia con el inglés, tanto en corpus anotados como en los modelos que se están aplicando. Los modelos en inglés o en chino son más sofisticados”, según lo expresa Guerrero. “La distancia es muy grande”, remacha. Al cuantitativo se suma un problema cualitativo: los corpus se alimentan de datos del pasado, que tienen que ver con nuestra idiosincrasia cultural, para bien y para mal, explica Guerrero, y eso genera sesgos de edad o de género.
Cambios sociales
“Todas las enfermeras son mujeres y los médicos, hombres”, tercia Benjamins. “En Google Translate lo tienen parcialmente solucionado, pero todos seguimos trabajando en cómo evitarlo”, prosigue Benjamins. “Puede tratarse desde varias capas de entrenamiento para evitarlos o contenerlos, pero no es fácil”, reconoce Guerrero. Aun así, hay que hacerlo, porque si no se corrige “el lenguaje machista y patriarcal creará máquinas machistas y patriarcales”, alerta. Por eso, uno de los objetivos del proyecto LEIA, que lleva tres años en marcha, es crear algún tipo de sello de buen uso que garantice una IA más ética, democrática e inclusiva.
En esta velocísima carrera tecnológica por el procesamiento del lenguaje natural ha de estar presente no solo el español sino las lenguas cooficiales del Estado, según reclama Guerrero. Que las máquinas hablen el lenguaje de los ciudadanos debería ser, entre otras cosas, parte del compromiso ético de las tecnológicas, puesto que ayuda a democratizar el acceso a la IA. “Nos comunicamos con las máquinas”, constata. Quién no ha traducido un texto por internet, utilizado un sistema por voz o charlado con un chatbot. “Estamos rodeados de IA, y queremos que se comunique con nosotros en nuestro idioma”, insiste.
Benjamins aconseja priorizar los retos y mercados en los que poner el foco para “avanzar y ser más competitivos”; áreas o sectores concretos en los que la tecnología puede aportar valor, pero en los que aún tiene una presencia incipiente: salud, justicia, educación, medios de comunicación. “Se puede entrenar al modelo para que resuma de manera fácil una jurisprudencia complicada, y aún queda mucho por hacer por transformar la educación: se puede meter el libro de texto en el modelo, y que el programa genere preguntas, y sus respuestas correctas”, cita como ejemplos.
Puedes seguir a EL PAÍS TECNOLOGÍA en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.