DÍA DEL IDIOMA ESPAÑOL

Cazadores de palabras

Así se elabora el Corpes XXI: un retrato del español actual que aspira a reunir 400 millones de formas

EPV / RAEundefined

Tienen un objetivo: reunir 25 millones de palabras cada año. Valen libros, artículos de prensa, blogs y hasta testimonios orales (siempre que se transcriban, claro). Además, todos esos textos pueden venir de cuatro continentes diferentes. Pero hay que cumplir con un requisito: que el conjunto sea lo más representativo posible del castellano que se emplea en el mundo actualmente. Ese es el verdadero objetivo del Corpus del Español del Siglo XXI, más conocido como CORPES XXI y ya disponible en línea. Unas 70 personas trabajan en la codificación de los textos bajo la coordinación de la RAE, que vela por los objetivos de un proyecto que le encargó la Asociación de Academias de la Lengua Española. Sobrerrepresentación es la palabra prohibida. “Hay novelas que no podemos incorporar si son muy extensas porque un autor quedaría sobrerrepresentado”, ejemplifica Mercedes Sánchez, coordinadora del CORPES. Y lo mismo pasa con el resto de parámetros con que se clasifican los textos. En definitiva, que no tendría sentido incorporar más formas de Filipinas que de México porque los hablantes y la producción lingüística del país con más hispanohablantes son muy superiores a los del archipiélago del Pacífico. Cuando en 2018 se alcancen los 400 millones de formas (25 millones por cada año entre 2001 y 2016) será la mayor recopilación hasta la fecha. Aunque advierte su director, el académico Guillermo Rojo, que no será una muestra total: “Los hablantes somos muchos y hablamos mucho”.

Normas

Más información

Archivado En

Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
Logo elpais

Ya no dispones de más artículos gratis este mes

Suscríbete para seguir leyendo

Descubre las promociones disponibles

Suscríbete

Ya tengo una suscripción