Hitz-ehiztari informatikoa
Euskarazko, ingelesezko eta gaztelaniazko ahots-artxiboetarako bilatzailea garatu du EHUko Zientzia Fakultateko ikertzaile talde batek
Interneten edo norberaren artxibo digitaletan bilaketak egitea ohikoa da dagoeneko milioika lagunen eguneroko bizimoduan. Nahikoa da termino egokia tekleatzea bilatzaile komertzial batean, instant batean aurkitzeko aisialdirako zein lanerako behar dugun hori. Jo dezagun, ordea, bilaketa horiek ez daudela mugatuta idatzizko artxiboetara eta giza-ahotsa oinarri duten soinu artxiboak ere arakatu ditzakegula erreminta informatiko baten bidez.
Interneten bilaketak egiteko balio dezake erreminta berriak
Hain zuzen ere, horrelako lanabes bat sortu dute EHUko Zientzia Fakultateko GTTSko (Software Teknologietako Lan Taldea) ikertzaileek. Euskaraz, ingelesez zein gaztelaniaz egin ditzake bilaketak Ehiztari izen adierazkorrarekin bataiatu duten tresnak.
Teknologia berriak bi motako bilaketak ahalbidetuko ditu: Sarean eta norberaren artxibategietan, GTTSko kideek azaltzen dutenez. "Hau da, telebista-kate batek erabil dezake, adibidez, bere soinu-artxibategiak arakatzeko eta termino jakin batzuk dituztenak identifikatzeko", azaldu du Mikel Peñagarikano Elektronika eta Elektrizitate fakultateko irakasle eta Ehiztari garatu duen ikertzaile taldeko kideak. Harekin batera German Bordel (taldeko burua), Arantza Casillas, Luis Javier Rodríguez, Amparo Varona eta Maider Zamalloa irakasleek parte hartu dute 2005ean abiatu ziren lanetan.
Urte horretan Industria Sailaren dirulaguntza jaso zuten "erabat jorratu gabe" zegoen esparruan jarduteko, Bordelek gogoratzen duenez. Gaur egun, ordea, Estatu Batuetan badago antzeko erreminta merkaturatzen ari den enpresa bat; besteak beste The Boston Globe egunkariak eskaintzen die tresna hori internautei argitalpenaren edizio digitalean. Funtsean, honako funtzionamendua du bilatzaileak: Lehenik eta behin, artxiboak analizatzen ditu audioren bat dutenak identifikatzeko. Behin artxibo horiek zati edo segmentu txikiagotan banatuta, ahotsak dituztenak aukeratzen ditu. Ondoren, ahotsen hizkuntza identifikatzen du eta, jarraian, artxiboa transkribitzen du dagokion hizkuntzaren fonetika eta arau gramatikalak aintzat hartuta. "Hortik aurrera, Google edo Yahoo bezalako bilatzaileen ohiko erremintak erabiltzen ditu idatzizko testuetan bilaketak egiteko", argitu du Bordelek.
Sistemak logika matematikoa erabiltzen du prozesu horiek guztiak aurrera eramateko, automatikoki ikasitako eredu matematikoak oinarri hartuta. Azken hauek artxiboek dituzten soinuak identifikatzeko balio dute, fonema eta hitz bakoitzak sorrarazten duen uhinaren frekuentzia formula matematiko baten bidez adieraz baitaiteke. "Guk ez diogu sartu sistemari euskararen edo gaztelaniaren gramatika", argitu du Bordelek. "Prozesuak lagin bidezko ikasketa deritzana du oinarri. Sistemak seinaleak lokalizatzen ditu eta zuk emandako informazioaren arabera identifikatzen ditu. Behin hori ikasita, beste lagin batzutan aplika dezake", gaineratu du.
Gramatikak eragina du teknologian
Makinek arazo gehigarria dute euskara 'ikasteko'. Hizkuntza honen egitura gramatikalak -deklinabideetan oinarritua- zaildu egiten du hitzen idenfikazioa, eta horrek eragina du mota honetako erremintak garatzeko behar diren eredu matematikoetan. "Gaztelania eta ingelesa, berriz, errazagoak dira, hitzetan oinarriturik baitaude", dio Peñagarikanok.
"Deklinabideek konplikazio tekniko gehigarriak sorrarazten dituzte honelako teknologietan. Zentzu horretan euskara ingelesa baino konplexuagoa da eta nolabaiteko parekotasuna du alemanarekin eta bereziki eskandinaviar hizkuntzekin", gaineratu du ikertzaileak. Antzeko arazoak sortzen dira, besteak beste, itzulpen automatikorako sistemetan.
Ildo horretan, Europako iparraldeko herrialdeetako zenbait erakunderekin lankidetzan aritzea aztertzen ari da EHUko taldea.
Ehiztariri dagokionez, Sautrela izeneko teknologia espezifikoa garatu du GTTSk. Java hizkuntzan garatua, kode irekiko erreminta da eta hizketa prozesatzeko sistemen garapenerako sortu dute.
"Gero aplikazioak fabrikatzeko erabiltzen diren programa-multzoak dituzte oinarri teknologia hauek", azaldu du Peñagarikanok. Munduan kode libreko beste bi sistema nagusi daude gaur egun. "Hau hirugarrena izan dadila nahi dugu", diote EHUko ikertzaileek.
Ehiztari-ren ezaugarriak
- Erabilpenak: Sarean edo hedabideetako soinu-artxibategietan bilaketak egiteko balio dezake.
- Kode irekia: Software libreko erreminta da, beste ikertzaile batzuek garatzeko modukoa.
- Euskaraz, zailagoa: Hizkuntzaren egitura gramatikalak ahalegin teknologiko handiagoa eskatzen du.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
¿Tienes una suscripción de empresa? Accede aquí para contratar más cuentas.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.
Archivado En
Últimas noticias
El Rayo celebra con un festín de goles ante el Drita su pase a octavos de la Conference
Finabien Paisano: las claves del programa dirigido a migrantes que envían remesas
El Valencia Basket, muy incómodo en Israel, cede ante el Maccabi
Estados Unidos sanciona a 29 buques de la “flota fantasma” iraní y endurece la presión sobre Teherán y Venezuela
Lo más visto
- Los hijos de Isak Andic negocian un acuerdo para pagar 27 millones a la pareja del empresario y cerrar el conflicto por el legado
- Irene Escolar: “Si la gente se droga es porque encuentra en ello una anestesia que necesita. Negarlo es absurdo”
- El Supremo condena a ‘Okdiario’ y a Eduardo Inda por intromisión en el honor de Iglesias al acusarle de cobrar de Venezuela
- La población de pumas de la Patagonia se dispara gracias a una presa inesperada: los pingüinos
- La asociación mayoritaria de guardias civiles no está de acuerdo con la DGT en sustituir los triángulos por la baliza V16




























































