GARA > Idatzia > Kultura

Egungo Testuen Corpusa, euskarak egungo arazoei aurre egiteko tresna berria

Euskara Institutuak garatutako Egungo Testuen Corpusak (ETC) 205 milioi hitz biltzen ditu, munduko handienetako bat eta euskaraz sekula egin den handiena delarik. Bere baitan biltzen dituen XXI. mendeko testuetan agertzen diren hitzak interpretatzen ditu, bakoitzari buruz dagoen informazio osoa emateko. Tresna berri hau erabilerraza eta argia da.

p038_f01_204x101.jpg

Alvaro HILARIO | BILBO

Abandoibarran dagoen Bizkaia aretoan egin zuten atzo EHU/UPVko Euskara Institutuak azken urteotan garatu duen Egungo Testuen Corpusaren (ETC) aurkezpena. 205 milioi hitz biltzen dituen corpus honek -munduko handienetako bat eta euskaraz sekula egin den handiena- bere baitan biltzen dituen XXI. mendeko testuetan agertzen diren hitz guztien gaineko informazioa ematen du. Egileetako bat da Ibon Sarasola, eta haren esanetan, ETCk «hizkuntza zehatz bat, une zehatz batean» ikasteko balio du.

Euskara Institutuko Pello Salaburu zuzendari eta Ibon Sarasola kidea ez ezik, Iñigo Urkullu lehendakariak eta EHUko erretore Iñaki Goirizelaiak ere parte hartu zuten atzoko ekitaldian.

Euskara batuak dituen arazo berriei irtenbidea emateko jaioa da ETC: «Batuaren arazoak gero eta sofistikatuagoak dira, eta beharrezkoak dira, beraz, hau bezalako tresna berriak», adierazi zuen Sarasolak.

Testuak eta hitzak

«Testuak dira. Corpusak interpretatzen ditu eta testuetan dauden hitzen inguruko informazioa ematen du. Ez dira liburu elektronikoak, bada beste ezer»; horrela definitu zuen ETCa Pello Salaburuk.

Segituan, eta ETC bera baliatuz, azaldu zituen Salaburuk tresna honen nondik norakoak: testu bilduma euskarri informatikoan dugu -«betiere, hizkera mota baten adierazleak»- eta bertan diren hitzei buruzko informazioa ematen du; izan ere, hitz baten gaineko informazioa ematen du, hura hartzen duen esaldia kontuan hartuz.

Corpus arloan mota askotako corpusak daude eta «arrunten artean» kokatu zuen Euskara Institutuak eginiko hau, «erabilerraza» baita eta «oso informazio interesgarria» zabaltzen duelako.

Neurriak, horiek zelan aukeratu, interfazea, informazioaren berdintasuna eta hitzei buruz zelako informazioa ematen den, item horien arabera sailkatzen dira corpus ezberdinak. Corpusen munduko mutur biak ikusarazteko, adibide bi erabili zituen Pello Salaburuk: batetik, Google Books, 500.000 milioi hitz biltzen dituen arren, haututako hitza azpimarratuta agertu baino egiten ez duena; eta bestetik, Kataluniako AnCora, milioi bat hitz dakartza eta horien guztien inguruko ezaugarriak eskaintzen ditu.

Azpimarratu zuen ETC «bilatzeko sistema argi eta erakargarria» dela, eta alde horretatik Josu Landak egindako lana eskertu zuen.

Aukeratutako testu guztiak XXI. mendekoak eta prosazkoak dira; egileen aburuz, hauxe da beste funtsezko ezaugarri bat: «Euskara asko egonkortu da 2000tik aurrera, urte horretan atera baitzuen Euskaltzaindiak `Hiztegi batua', eta horrek eragin handia izan du», esan zuen Salaburuk. Ibon Sarasolak azaldu zuen hiztegiak corpus baten gainean daudela eraikita.

Testuak eta erabilerak

ETCn badira jatorriz euskaraz idatzitako testuak eta itzulpenak direnak. Corpusean bilaketak egitea erraza ei da, emaitzak «aberatsak» direlarik. «Etxea» hitza sartuz gero, lema (etxe) eta horren aldaera guztiak (etxeak, etxera...) agertzen dira. Bilaketa bukatu eta gero, automatikoki agertzen da «tarta» bat, lemak eta aldaerek osatua, aldaerak zelan banatzen diren erakusten duena ehunekoetan. Aldaera bakoitzeko adibide guztiak ere kontsulta daitezke: hitza bere esaldian agertzen da, eta nork erabili duen, non, noiz eta abar ere ikus daiteke.

Ibon Sarasolak aipatu zuen hitzaren eboluzioa ere ikus daitekeela agertzen diren grafikoetan: urtez urte hitz bat gehiago edo gutxiago erabili den, urtekako ereduak ere azaltzen direlarik. Hitz bakoitzaren sare semantikoa ere eskaintzen digu ETCk.

ETC eraikitzen ibili den Euskara Institutuko Ibon Sarasolak azpimarratu zuen jatorrizko testuetan eta itzulpenetan erabiltzen den euskara ezberdina dela. Bere ustez, kontu bi azaleratzen ditu honek: «euskaraz egiten dugunean arazoak saihesten» segitzen dugu; eta, bestalde, hizkuntz politika okerrak egiten ari dira EAEn, zenbait itzulpen diruz lagunduz, esaterako.

Lagun Aro Fundazioaren diru-laguntza jaso du egitasmoak.

ERRONKA BERRIAK

Egungo Testuen Corpusa euskarak dituen erronka berriei begira sortutako tresna da. Baliabide honen erabilerari dagokionez, esan behar da hiztegiak, esaterako, corpus baten gainean direla eraikiak. Corpusa www.ehu.es/etc helbidean kontsulta daiteke.

Imprimatu 
Gehitu artikuloa: Delicious Zabaldu
Igo