Así funciona la ‘piedra de Rosetta’ de los legajos
Científicos de Cádiz y Valencia crean un sistema con inteligencia artificial capaz de encontrar palabras en documentos digitalizados con caligrafía de los siglos XV al XIX
Un barco también puede ser un navío, una bombarda, una capitana, una carabela, una nao, un galeón o una chalupa. Cualquiera de esas palabras aguarda escondida entre los miles de documentos antiguos que atesora un archivo histórico. Puede estar escrita a mano, más o menos legible, en letra humanística, procesal encadenada o cortesana. No hay historiador que no se haya enfrentado a esta matrioska investigadora. Pero uno de ellos, Carlos Alonso, se preguntó si un sistema de inteligencia artificial no podría hacer ese engorroso trance. Y el proyecto ‘Carabela’ le acaba de demostrar que un algoritmo puede ser una suerte de piedra de Rosetta para legajos históricos.
“Tiempo y dinero”, eso es lo que cuesta cualquier investigación sobre pecios hundidos, según explica Alonso, historiador del Centro de Arqueología Subacuática (CAS) de Cádiz. Él es uno de los artífices de este sistema inteligente capaz de encontrar palabras y combinaciones de palabras en documentos antiguos digitalizados. Este sistema ha ocupado más de dos años de trabajo a investigadores del CAS -subsede del Instituto Andaluz del Patrimonio Histórico, IAPH- y del Centro de Investigación de Reconocimiento de Patrones y Tecnología del Lenguaje Humano, PRHLT, de la Universitat Politècnica de València (UPV), liderados por el catedrático Enrique Vidal.
El físico valenciano y su equipo (integrado por José Miguel Benedí, Lorenzo Quirós, Francisco Casacuberta, Moisés Pastor, Vicente Bosch, Alejandro Toselli, Verónica Romero y Joan Andreu Sánchez) lleva más de 12 años enfrascado en investigaciones destinadas a desarrollar tecnologías capaces de procesar textos escritos a mano. Han conseguido buenos resultados para colecciones concretas, como con los manuscritos del filósofo inglés Jeremy Bentham. Pero nunca habían logrado el ambicioso reto que Alonso tenía en mente desde que, en 2011, supo del trabajo de Vidal a través de una entrevista: conseguir que el sistema entienda diferentes tipos de letra, habitualmente enrevesados, y en imágenes de diversa calidad.
“Eran dificultades que nunca habíamos tocado”, explica Vidal. Hasta que en el proyecto Carabela -desarrollado entre 2017 y 2019 con financiación de la Fundación BBVA- han demostrado que la tecnología está preparada para leer palabras en fotografías de bajo contraste y calidad, de hasta 125 píxeles por pulgada, escritas en variables -y, a veces, casi ilegibles- estilos de letra desde el siglo XV al XIX. “Hemos forzado al máximo al sistema y el resultado ha sido muy bueno”, afirma Alonso. Esta variabilidad de imágenes, calidades y estilos de escritura eran requisitos imprescindibles para que pudiese resultar de utilidad en las investigaciones sobre barcos hundidos que en el CAS realizan para confeccionar su carta arqueológica subacuática.
“Aunque los documentos estén catalogados o digitalizados, hay que tener en cuenta que el 80% o 90% del contenido de los archivos es desconocido”
El sistema se basa en un método de indexación probabilística, con una interfaz similar a un buscador por palabras. El algoritmo trabaja píxel por píxel de la imagen empleando modelos ópticos, que descifran la escritura de los caracteres, como con modelos de lenguaje, que analizan cómo se combinan estos para formar palabras y frases. Las búsquedas producen resultados acertados en más de un 80% de los casos y el sistema siempre informa porcentualmente al usuario sobre el grado de fiabilidad de lo que encuentra. “El éxito se debe en buena medida a que no se insiste en transcribir textualmente, sino que construye mapas de indexación con probabilidades de todo lo que puede estar escrito en cada punto de cada imagen”, detalla Vidal.
Pero el algoritmo no aprendió solo a hacer esta tarea. “En Valencia fueron capaces de poner en marcha la escuela y nosotros enseñamos al niño a leer”, explica Alonso en referencia al trabajo desarrollado junto a Carmen García Rivera -directora del CAS-, Lourdes Márquez, y los colaboradores María del Carmen Orcero y David Garrido. El equipo seleccionó más de 130.000 imágenes -a fotografía por página- procedentes de colecciones del Archivo Histórico Provincial de Cádiz y del Archivo General de Indias de Sevilla. De ellas, Alonso escogió 514 documentos al azar, en función de los diferentes tipos de letras, calidades de imagen o de contraste.
El historiador fue transcribiendo palabra por palabra, indicándole al algoritmo las variaciones en la escritura que los términos han experimentado en los siglos -abreviaturas, cambios entre la v y la b- o sus sinónimos, para que luego fuera capaz de buscar por sí mismo. “Cuando llevaba solo 10 documentos, el sistema ya había aprendido y ayudaba a la tarea de transcribir manualmente”, recuerda el historiador. Fue más un año de enseñanza con la incertidumbre de si realmente ‘Carabela’ funcionaría o no. La duda quedó despejada cuando buscó, por primera vez, entre los 130.000 documentos la palabra “naufragio” y el sistema le devolvió 400 referencias. De ellas, 150 contenían información inédita para el CAS.
“Aunque los documentos estén catalogados o digitalizados, hay que tener en cuenta que el 80% o 90% del contenido de los archivos es desconocido”, asegura el arqueólogo. ‘Carabela’, en fase beta y consultable en la red, ha demostrado salvar ese escollo con éxito, pero también se puede convertir en un peligro para cazatesoros y piratas que rastrean las referencias escritas de hundimientos para expoliar los yacimientos subacuáticos. Por ello, los artífices del programa han optado por limitar el acceso a las imágenes que usaron del Archivo de Indias, donde se atesoran 80 millones de documentos sobre el comercio con América durante siglos. Además, el programa, ha servido para clasificar los documentos indexados según su nivel de riesgo de exhibición pública. Esto permitirá saber fácilmente qué partes sensibles de los archivos hay que proteger.
La nueva piedra de Rosetta de los legajos se perfila ya como una futura herramienta de gran utilidad para los investigadores, “aunque todavía queda mucho por desarrollar y mejorar”, asegura el historiador gaditano. De hecho, sus desarrolladores sueñan con seguir mejorando el algoritmo en futuros proyectos para afinar aún más la búsqueda y que el sistema sea incluso capaz de producir transcripciones aproximadas de párrafos seleccionados por los usuarios. “Es un proyecto experimental con buen resultado. La clave ahora es la sensibilidad que desde el mundo de los archivos demuestren por él”, zanja ilusionado Alonso.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.