GARA > Idatzia > Euskal Herria

Interneten euskarazko hitzen erabilerari buruz kontsultak egiteko tresna jarri du Elhuyarrek

p019_f02_88x68.jpg

GARA |

Elhuyar Fundazioko Ikerketa eta Garapenerako taldeak Euskal Herriko Unibertsitateko Informatika Fakultateko taldearen laguntzarekin, CorpEus izeneko zerbitzua sarean jarri du. Interneten euskarazko hitzen erabilera errealen inguruan kontsultak egiteko balio du tresna berri honek eta http://www.corpeus.org helbidean aurki daiteke.

Alde horretatik, zerbitzuak sartutako hitzaren lema bidezko bilaketa egiten du interneteko euskarazko orrien artean eta orri horietan dauden hitzaren agerpen guztiak erakusten ditu bere testuinguruan, hainbat daturen araberako grafikoekin batera.

Ekimenaren egileek azaltzen dutenez: «Gaur egun, hizkuntza guztiek behar dituzte corpusak. Formatu elektronikoan eta linguistikoki etiketatuta dauden testu-bildumak dira eta hizkuntzaren ikerketan eta hizkuntza teknologien garapenean erabiltzen dira».

Are gehiago, oso baliabide garrantzitsuak omen dira «hizkuntza-teknologiak garatzeko, hiztegiak egiteko, hizkuntza arautzeko, itzulpenetan laguntzeko... Azken finean, hitzen erabilera errealen inguruko informazioa» ematen dute hitz bat beste bat baino gehiago erabili den, nola deklinatu edo idatzi ohi den, zein hitzekin konbinatzen den eta abar jakiteko.

Irailaren 15 eta 16an Louvain-la Neuve (Estatu belgiarra) herrian egindako WAC3 (Web as Corpus) nazioarteko kongresuan aurkeztu zuten CorpEus eta oso harrera ona izan zuen. Izan ere, tresnaren ezaugarriak oso interesgarriak iruditu zitzaizkien beste parte-hartzaileei eta bertan erabilitako metodologia beste hizkuntza batzuetarako baliagarri izan daitekeela aipatu zuten.

Arazoak eta ezaugarriak

Lehendik ere badaude CorpEus edo gisa horretako zenbait tresna sarean (WebConc eta WebCorp, adibidez), baina horiek ere Interneteko beste tresna eta bilatzaileek euskararekin dituzten bi arazoak dituzte: batetik, forma zehatz bat soilik bilatu dezakete, eta ez hitz edo lema baten forma guztiak batera ¯esaterako, lur bilatzeko eskatu eta lur, lurra, lurrean, lurrarekin... aurkitzea interesatzen zaigu¯; bestetik, euskarazkoak ez diren emaitzak ere eman ditzakete eta ematen dituzte, baldin eta hitz-forma bera bada beste hizkuntzaren batean (software, anorexia eta sulfuroso hitzen kasuan, adibidez).

CorpEusek Interneteko bilatzaileen APIak erabiltzen ditu (Google, Yahoo edo Microsoft-ekin ibil daiteke) hitz bat zein webgunetan agertzen den jakiteko eta emaitzak hainbat faktoreren arabera ordenatu ditzake eta analisi linguistikoa ere erakusten du. Gainera, bilaketa euskararen bi arazoak konponduta egiten du: lemaren arabera bilatzen du, eta euskarazko orriak soilik ematen ditu. Esaterako, erabiltzaileak etxe hitzaz galdetzen badu, era honetan jarriko zaio bilatzaileari: etxe OR etxea OR etxeak OR etxeari OR etxearen...

Desabantailak ere baditu zerbitzu berri honek internet linguistikoki etiketatu gabea denez, nolabaiteko ziurgabetasuna izango baitu beti lema bat baino gehiago dituzten hitzekin. Gainera, inoiz ezingo da ikusi dagoen guztia, bilatzaileek, normalean, mila webguneko muga izaten dutelako.

Imprimatu 
Gehitu artikuloa: Delicious Zabaldu
Igo