La IA española se entrenó con obras obtenidas sin el permiso de sus autores
El Gobierno, desarrollador del modelo Alia, se acoge a una excepción regulatoria para usar Common Crawl, un repositorio de libros sacados de internet sin pagar licencias
El modelo fundacional de inteligencia artificial (IA) Alia desarrollado por el Gobierno usó durante su fase de entrenamiento obras obtenidas sin pagar derechos de autor. En la propia descripción de la familia de modelos Alia, en el apartado en el que se describen los corpus de texto empleados durante el proceso, se especifica que una de las fuentes a las que se recurrió...
El modelo fundacional de inteligencia artificial (IA) Alia desarrollado por el Gobierno usó durante su fase de entrenamiento obras obtenidas sin pagar derechos de autor. En la propia descripción de la familia de modelos Alia, en el apartado en el que se describen los corpus de texto empleados durante el proceso, se especifica que una de las fuentes a las que se recurrió fue Common Crawl, un repositorio en el que se vuelcan todas las obras existentes en internet sin pagar licencias y usado también por los gigantes tecnológicos.
Según fuentes del Ministerio de Transformación Digital y de la Función Pública, lo que hicieron está amparado por la normativa vigente. “La Directiva de Mercado Único Digital y el Reglamento Europeo de IA establecen una serie de excepciones para hacer minería de datos. Alia ha respetado todos estos mecanismos de protección de derechos de autor”, dicen esas fuentes. La mencionada excepción, que figura en el apartado 3 del artículo 4 de la Directiva de Mercado Único Digital, establece que se podrá acceder a trabajos “a condición de que el uso de las obras (...) no haya sido expresamente reservado por sus titulares de derechos de forma adecuada”.
Es decir, los autores y creadores de contenidos que no quieran que su obra sea usada para entrenar modelos de IA deben seguir un complejo proceso para protegerlas en cada soporte online en el que figuren, tanto suyos como de terceros. Eso incluye establecer un mecanismo que hace que los robots que rastrean y recopilan archivos de internet (como Common Crawl) detecten automáticamente que la obra en cuestión está protegida y no la toquen. Desde el ministerio aseguran que, “cuando los contenidos tenían opción de exclusión por parte del autor, o cuando para su acceso legítimo era necesaria una suscripción, no se han incorporado” a las bases de datos que han servido para entrenar el modelo.
El hecho de tener que explicitar que la obra está protegida cada vez que se reproduce es una quimera para los autores. “Es materialmente imposible”, se queja Eva Moraga, abogada especialista en el sector cultural y portavoz de la Coalición IA Respeta Cultura. “Esta normativa no estaba pensada para la IA, tal y como ha reconocido el europarlamentario Axel Voss en un informe del Parlamento Europeo sobre IA y derechos de autor, sino para la investigación académica y el uso particular”, añade.
La razón de ser de Alia, según describió el presidente del Gobierno, Pedro Sánchez, en enero durante la presentación del proyecto, es que exista un modelo en el que los documentos en castellano, catalán, gallego, valenciano y vasco tengan más peso en la fase de entrenamiento. La lengua oficial y las cooficiales representan un 20% de todos los documentos analizados por el modelo, una proporción muy superior a la de las herramientas más usadas, como ChatGPT o Gemini, de modo que, a priori, se equivocará menos con las frases hechas y el contexto español.
Alia es un proyecto de código abierto, por lo que está disponible para que cualquier particular o empresa pueda descargarlo y manipularlo para construir su propia herramienta. En distintas reuniones con medios, fuentes del ministerio y de la Secretaría de Estado de Digitalización e IA han insistido en que el modelo se ha entrenado con documentación pública oficial: desde el histórico de los boletines del BOE o el Boletín Oficial del Registro Mercantil hasta las intervenciones parlamentarias o resoluciones judiciales. A esos recursos hay que añadir, según figura en la propia web de Alia, Common Crawl, una organización sin ánimo de lucro que desde 2007 ha almacenado 300.000 millones de páginas web con el objetivo de hacer accesible la información online a los investigadores.
La batalla legal de la IA
Los llamados grandes modelos de lenguaje (LLM, por sus siglas inglesas) aplican sofisticados algoritmos sobre ingentes bases de datos de texto para extraer patrones y ser capaces de elaborar contenidos a partir de las instrucciones, o prompts, aportadas por los usuarios.
La cantidad de datos necesarios para que ese proceso dé resultados aceptables es enorme. En el caso de las últimas versiones de ChatGPT, por ejemplo, se estima que han usado prácticamente todo internet. En muchos casos, sin permiso, lo que desde 2022 ha propiciado en EE UU una cascada de demandas colectivas de creadores contra los gigantes de la IA por haber usado su obra sin pagar derechos de autor. “Sería imposible entrenar los modelos actuales de IA sin material con derechos de autor”, reconocieron ya en enero de 2024 representantes de OpenAI en un documento remitido a la Cámara de los Lores.
Hace dos semanas, Anthropic, la empresa desarrolladora del chatbot Claude, llegó a un acuerdo extrajudicial histórico con un grupo de escritores en virtud del cual les pagará al menos 1.500 millones de dólares para evitar tener que dirimir en los tribunales una demanda por haber entrenado sus modelos con libros de los demandantes conseguidos sin abonar derechos de autor. Es la primera vez que un gigante de la IA prefiere evitar ir a juicio en un caso de copyright, lo cual es indicativo de que sus abogados veían opciones de perder el pleito.
Controversia legal
La regulación europea no es tajante en cuanto a la relación entre la IA y los derechos de autor. “La excepción incluida en la Directiva de Mercado Único Digital estaba pensada para propósitos de investigación, que es lo que argumenta Alia que hace. Pero luego pone su modelo de lenguaje a disposición de aplicaciones y usos comerciales, lo cual contradice el espíritu de la norma”, sostiene Borja Adsuara, abogado y consultor especializado en derecho digital.
El Reglamento Europeo de IA, que entró en vigor en julio del año pasado, también menciona los derechos de autor. “Deja muy claro que es necesaria la autorización del titular de los derechos para entrenar un modelo de lenguaje”, asegura Adsuara. En su opinión, la excepción aplica solo a casos de investigación. Sin embargo, no se especifica cómo debe ejercerse.
La UE publicó en junio un código de buenas prácticas para orientar a las empresas en la aplicación del Reglamento de IA, pero tampoco resolvió las dudas claves. Establece que los desarrolladores de IA deben pedir permiso a los titulares de derechos antes de usar sus contenidos, tal y como sostiene Adsuara. Pero, al mismo tiempo, insiste en que los autores deben explicitar, si así lo quieren, que sus obras no pueden utilizarse sin su autorización. “Este texto representa una oportunidad perdida para volver a conectar la actuación de algunos gobiernos y de las grandes empresas tecnológicas con los valores de la sociedad”, dijo entonces en un comunicado Jorge Corrales, el director general de la patronal de editores CEDRO.
Los tribunales serán quienes decidan cómo se aplica la normativa. “Ahora mismo hay una discusión de carácter jurídico y doctrinal y que se va a debatir en procedimientos judiciales en toda Europa”, explica Moraga. “Hay demandas en Francia, en Alemania o en Hungría que acabarán por determinar si esa excepción se puede utilizar o no como argumento por parte de las empresas de IA”.