Hitz-ehiztari informatikoa
Euskarazko, ingelesezko eta gaztelaniazko ahots-artxiboetarako bilatzailea garatu du EHUko Zientzia Fakultateko ikertzaile talde batek
Interneten edo norberaren artxibo digitaletan bilaketak egitea ohikoa da dagoeneko milioika lagunen eguneroko bizimoduan. Nahikoa da termino egokia tekleatzea bilatzaile komertzial batean, instant batean aurkitzeko aisialdirako zein lanerako behar dugun hori. Jo dezagun, ordea, bilaketa horiek ez daudela mugatuta idatzizko artxiboetara eta giza-ahotsa oinarri duten soinu artxiboak ere arakatu ditzakegula erreminta informatiko baten bidez.
Interneten bilaketak egiteko balio dezake erreminta berriak
Hain zuzen ere, horrelako lanabes bat sortu dute EHUko Zientzia Fakultateko GTTSko (Software Teknologietako Lan Taldea) ikertzaileek. Euskaraz, ingelesez zein gaztelaniaz egin ditzake bilaketak Ehiztari izen adierazkorrarekin bataiatu duten tresnak.
Teknologia berriak bi motako bilaketak ahalbidetuko ditu: Sarean eta norberaren artxibategietan, GTTSko kideek azaltzen dutenez. "Hau da, telebista-kate batek erabil dezake, adibidez, bere soinu-artxibategiak arakatzeko eta termino jakin batzuk dituztenak identifikatzeko", azaldu du Mikel Peñagarikano Elektronika eta Elektrizitate fakultateko irakasle eta Ehiztari garatu duen ikertzaile taldeko kideak. Harekin batera German Bordel (taldeko burua), Arantza Casillas, Luis Javier Rodríguez, Amparo Varona eta Maider Zamalloa irakasleek parte hartu dute 2005ean abiatu ziren lanetan.
Urte horretan Industria Sailaren dirulaguntza jaso zuten "erabat jorratu gabe" zegoen esparruan jarduteko, Bordelek gogoratzen duenez. Gaur egun, ordea, Estatu Batuetan badago antzeko erreminta merkaturatzen ari den enpresa bat; besteak beste The Boston Globe egunkariak eskaintzen die tresna hori internautei argitalpenaren edizio digitalean. Funtsean, honako funtzionamendua du bilatzaileak: Lehenik eta behin, artxiboak analizatzen ditu audioren bat dutenak identifikatzeko. Behin artxibo horiek zati edo segmentu txikiagotan banatuta, ahotsak dituztenak aukeratzen ditu. Ondoren, ahotsen hizkuntza identifikatzen du eta, jarraian, artxiboa transkribitzen du dagokion hizkuntzaren fonetika eta arau gramatikalak aintzat hartuta. "Hortik aurrera, Google edo Yahoo bezalako bilatzaileen ohiko erremintak erabiltzen ditu idatzizko testuetan bilaketak egiteko", argitu du Bordelek.
Sistemak logika matematikoa erabiltzen du prozesu horiek guztiak aurrera eramateko, automatikoki ikasitako eredu matematikoak oinarri hartuta. Azken hauek artxiboek dituzten soinuak identifikatzeko balio dute, fonema eta hitz bakoitzak sorrarazten duen uhinaren frekuentzia formula matematiko baten bidez adieraz baitaiteke. "Guk ez diogu sartu sistemari euskararen edo gaztelaniaren gramatika", argitu du Bordelek. "Prozesuak lagin bidezko ikasketa deritzana du oinarri. Sistemak seinaleak lokalizatzen ditu eta zuk emandako informazioaren arabera identifikatzen ditu. Behin hori ikasita, beste lagin batzutan aplika dezake", gaineratu du.
Gramatikak eragina du teknologian
Makinek arazo gehigarria dute euskara 'ikasteko'. Hizkuntza honen egitura gramatikalak -deklinabideetan oinarritua- zaildu egiten du hitzen idenfikazioa, eta horrek eragina du mota honetako erremintak garatzeko behar diren eredu matematikoetan. "Gaztelania eta ingelesa, berriz, errazagoak dira, hitzetan oinarriturik baitaude", dio Peñagarikanok.
"Deklinabideek konplikazio tekniko gehigarriak sorrarazten dituzte honelako teknologietan. Zentzu horretan euskara ingelesa baino konplexuagoa da eta nolabaiteko parekotasuna du alemanarekin eta bereziki eskandinaviar hizkuntzekin", gaineratu du ikertzaileak. Antzeko arazoak sortzen dira, besteak beste, itzulpen automatikorako sistemetan.
Ildo horretan, Europako iparraldeko herrialdeetako zenbait erakunderekin lankidetzan aritzea aztertzen ari da EHUko taldea.
Ehiztariri dagokionez, Sautrela izeneko teknologia espezifikoa garatu du GTTSk. Java hizkuntzan garatua, kode irekiko erreminta da eta hizketa prozesatzeko sistemen garapenerako sortu dute.
"Gero aplikazioak fabrikatzeko erabiltzen diren programa-multzoak dituzte oinarri teknologia hauek", azaldu du Peñagarikanok. Munduan kode libreko beste bi sistema nagusi daude gaur egun. "Hau hirugarrena izan dadila nahi dugu", diote EHUko ikertzaileek.
Ehiztari-ren ezaugarriak
- Erabilpenak: Sarean edo hedabideetako soinu-artxibategietan bilaketak egiteko balio dezake.
- Kode irekia: Software libreko erreminta da, beste ikertzaile batzuek garatzeko modukoa.
- Euskaraz, zailagoa: Hizkuntzaren egitura gramatikalak ahalegin teknologiko handiagoa eskatzen du.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.