Reportaje:

500 milioi hitzetako unibertsoa

www.euskaracorpusa.net webgunean dago XX. mendeko euskararen erakuslehioa jadanik

Hamabost urte eman ditugu XX. Mendeko Euskararen Corpus Estatistikoa egiten. 4.658.036 testu-hitzez osatua dago baina berez 500 milioi hitzez osaturiko unibertsoa inbentariatu behar izan ditugu lan hau egiteko. Lan gogorra baina oso aberasgarria izan da'. Halaxe dio Miriam Urkia XX. Mendeko Euskararen Corpus Estatistikoaren koordinatzaileak. Mende honetako euskara jasotzen duen corpus estatistikoa da Euskaltzaindiak UZEIrekin lankidetzan egin duen lan erraldoi hau. Erabili izan den eta erabiltzen den euskararen lekuko erakusgarri izatea du egiteko nagusi eta ia bakarra, eta ez ereduzko ...

Suscríbete para seguir leyendo

Lee sin límites

Hamabost urte eman ditugu XX. Mendeko Euskararen Corpus Estatistikoa egiten. 4.658.036 testu-hitzez osatua dago baina berez 500 milioi hitzez osaturiko unibertsoa inbentariatu behar izan ditugu lan hau egiteko. Lan gogorra baina oso aberasgarria izan da'. Halaxe dio Miriam Urkia XX. Mendeko Euskararen Corpus Estatistikoaren koordinatzaileak. Mende honetako euskara jasotzen duen corpus estatistikoa da Euskaltzaindiak UZEIrekin lankidetzan egin duen lan erraldoi hau. Erabili izan den eta erabiltzen den euskararen lekuko erakusgarri izatea du egiteko nagusi eta ia bakarra, eta ez ereduzko hizkuntza proposatzea. Corpusa ikerkuntza batean erabil ditzakegun testuen eta datuen oinarrizko bilduma da eta ahalik eta zabalen eta ordenatuen izan behar du hizkuntzaren bilakaera ikusteko.

Euskararen tradizioa eta euskara modernoa jasotzeko ideia Euskaltzaindiaren barnean sortu zen 1987an. Hori egiteko enkargua UZEIri eman zioten eta urte horretan bertan hasi ziren lanean zortzi lagun. Miriamek azaldu duenez 'corpus estatistikoaren oinarria XX. mendeko euskal argitalpenen inbentario osoa da; inbentario honetan liburuak eta aldizkari garrantzitsuenak bildu ditugu. Liburu eta artikulu bakoitza irizpide ezberdinen arabera sailkatu dugu: euskalkiaren, epearen eta testu motaren edo jeneroaren arabera. Irizpide hauek finkoak izanik denentzat, euskaraz XX. mendean argitaratu den guztiaren unibertso osoa dugu'. Ezin, ordea, datu guzti hauekin corpusa egin eta 'lagin estatistiko bat atera behar zen, unibertso osoaren adierazgarri'.

Miriamek dionez 'testua aukeratua izan denean, zuzendu eta ostean lematizatu egiten da'. Testua lematizatzea hitz bakoitzari bere hiztegi sarrera jartzea da, sarrera estandarra bilaketa posibleak errazteko. 1987. urtean hasi zen lan taldea corpusa garatzen eta ordura arteko inbentarioa egitea ez zen erraza izan. 'Oinarri moduan Ion Bilbaoren Esku bibliografia hartu genuen. Abiapuntua hauxe izanik, Euskal Herriko liburutegi gehienetan orduak eman genituen'.

XX. Mendeko Euskararen Corpus Estatistikoa amaitutzat eman ondoren UZEIk Euskaltzaindiari erreferentzia corpus bat egitea proposatu dio. Real Academia Españolak, nahiz katalanek nahiz galiziarrek egina duten lana euskarak ere izan dezala, hain zuzen. Horretarako Euskaltzaindiak euskarazko obra garrantzitsuenak definitu beharko lituzke eta hauetan oinarrituta corpus osoago bat egin. Euskaltzaindiak definitu beharko lituzke erreferentzia obrak. Badira aukeraketa egiteko irizpide estandarrak eta testu mota bakoitzak kopuru bat luke corpus honetan: fikziozko testuak, zientziazkoak, zenbat ahozko dokumentu, zenbat idatzizko. Miriamen hitzetan 'normalean erreferentzi obra hauek azken 15-20 urtetakoak dira eta lan garrantzitsuenak behar dute, erabiltzaileak jakin dezan hor bilduta dagoena zaindutako obretakoa dela'.

Lo que más afecta es lo que sucede más cerca. Para no perderte nada, suscríbete.
SIGUE LEYENDO