_
_
_
_
_
Reportaje:Gaiak

'Basoa' edo 'edalontzia'?

Euskal WordNet-ek, Euskarazko lehenengo ezagutza base lexikalak, itzulpen automatikoak hobetuko ditu

"Edalontziko zuhaitzetan galdu zen". Itzulpen automatikoak betiko hiztegiak baino tresna informatiko boteretsuagoak behar dute, "basoa" dagokion testuinguruan kokatzeko, adibidez. Aplikazio horien artean, badaukagu Euskal WordNet (http://ixa2.si.ehu.es/mcr/wei.html), lehenengo Ezagutza Base Lexikala (EBL).

Sistema horri esker, hiztegi batek ematen duen informazioaz gain, sarrera lexikal (edo kontzeptu) bakoitzak dituen erlazio semantikoak ere kontsulta daitezke, kontzeptu horren beste zenbait informaziorekin batera: zein arlori dagokion (hatz sarrera, adibidez, anatomiari dagokio, eta tenisa kirol arloari); zein ezaugarri semantiko jasotzen dituen (biziduna edo objektua den, zein erabilera duen, zertaz osatua dagoen, eta abar).

Horretaz gain, munduko entitateak eta beraien arteko erlazioak jasotzen ditu. Esate baterako, hatz sarrera kontsultatuz gero, honen esanahia ez ezik, beste hainbat informazio ere jaso daiteke: besteak beste,gorputz-adar bat dela, hatz lodi bat dela, hatzak eskuen zati bat direla, eskuak aldi berean besoaren zati bat direla.

Sistema hori garatzeko zortzi urtez jardun dute lanean IXA taldeak eta Elhuyar Fundazioak. Gainera, Euskal WordNet gordetzeko eta editatzeko erabiltzen duten interfazea Kataluniako Unibertsitateko Politeknikoak garatu zuen. Eli Pociello filologo eta fundazioko kideak ondo ezagutzen ditu aplikazio horren ezaugarriak, Euskal WordNet-i buruzko doktore-tesia aurkeztu berri duelako Euskal Herriko Unibertsitatean.

Pocielloren esanetan, Euskal WordNet-ek "aukera handiak" eskaintzen ditu. Batetik, hiztegi elebakar eta elebidun gisa erabil daiteke (kontzeptu bakoitzak dagokion ingeleseko, gaztelaniako, katalaneko, euskarako eta italierako ordainak ditu), eta thesaurus baliagarria ere bada (kontzeptu bat adierazteko erabiltzen diren sinonimoen zerrenda). Izan ere, hizkuntzaren lexikoak ez du mugarik. "Etengabe garatzen ari den ezagutza-basea da. Orain arte, izenak landu ditugu, baina dagoeneko hasiak gara aditzak lantzen", azaldu du adituak.

Bestetik, ezagutza-base lexikal hau oso erabilgarria izango da hainbat arlotan, hala nola, galdera-erantzun sistemetan, informazio-erauzketan, hitzen adieren desanbiguazioan eta itzulpengintza automatikoan. Adibidez, Basoko zuhaitzetan galdu zen esaldian, desanbiguazio algoritmoak baso hitzari oihan adiera egokituko dio, eta ez edalontzi. Gainera, Euskal Wordnet ezagutza-base eleanitza denez, aipatutako beste hizkuntzetako ordainak ere emango ditu.

Lo que más afecta es lo que sucede más cerca. Para no perderte nada, suscríbete.
Suscríbete

Hala eta guztiz ere, sistema honek badu desabantailarik. Pocielloren arabera, aditzen informazio sintaktiko-semantikoa mugatua izatea da nagusiena. Esate baterako, aplikazioak ez ditu azpikategorizazioa, hautapen-murriztapenak eta rol tematikoak zehazten. Akats horiek konpondu nahian, Elhuyar eta IXA taldekoek dagoeneko hasiak dira Euskal WordNet tankera honetako informazio gehiagorekin hornitzen, tesiaren egileak azaldu duenez.

Tresna hau garatzeko Ingelesezko WordNet EBLa hartu zuten eredutzat. Ingelesezko kontzeptuak abiapuntutzat harturik, euskarazko ordainak egokitu dizkiete. Horrez gain, ingelesezkoan existitzen ez diren kontzeptuak (txakolina, trikitixa eta abar) gehitu zituzten.

Sistemari euskarazko kontzeptuak txertatu ondoren, Euskal WordNet-en hitzez hitzeko eskuzko orrazketa eta corpus baten (testu erreal baten) etiketatze semantikoa uztartu zituzten. Beraz, Elhuyar Hiztegiaz gain, corpuseko informazio erreala ere erabil zitekeen Euskal WordNet orrazteko, garatzeko eta aberasteko. Horrela, ezagutza-basea sortzeaz gain, euskarazko corpus semantikoa sortu zen aldi berean: EuSemcor.

Gaur egun, Euskal WordNet tresna erabilgarria da, baina sistema hobetu eta eguneratu egin behar da. Horretarako, hainbat proiektu abian jarri dituzte tresnaren sortzaileek.

Adibidez, IXA taldea eta Elhuyar Fundazioa elkarlanean ari dira WNTERM proiektuan. Horren helburua da Euskal WordNet domeinu espezializatuetara hedatzea, Elhuyarreko Zientzia eta Teknologiaren Hiztegi Entziklopedikoko (http://www.zientzia.net/hiztegia) informazio terminologikoa baliatuz.

Tresna eraginkorra

Sistema berriak hainbat abantaila eskaintzen ditu itzulpegintzaren esparruan.

- Desanbiguazioa. Kontzeptuen erlazio semantikoak ere jasotzen ditu.

- Itzulpengintza automatikoa. Gaur egungo sistemen zehaztasuna hobetuko du.

Regístrate gratis para seguir leyendo

Si tienes cuenta en EL PAÍS, puedes utilizarla para identificarte
_

Archivado En

Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
Recomendaciones EL PAÍS
_
_