Web-corpusen atari bat, Interneten euskara nola erabiltzen den jakiteko
GARA | DONOSTIA
Elhuyar Fundazioak euskarazko web-corpusen ataria sortu du, eta erabiltzaileentzat eskuragarri jarri. Heldu den asteazkenean aurkeztuko du Donostiako San Telmo museoko «Badu Bada» erakusketaren barrenean, baina aurreratu ditu baliabide berriari buruzko datu batzuk. Internetek euskara aztertzeko datu-iturritzat duen garrantzia nabarmendu nahi izan du, «Interneten euskara nola erabiltzen den jakitea denontzat baita interesgarria». Hori egiteko aukera emateko sortu dute, hain zuzen ere, Web-corpusen ataria.
Bertan, erabiltzaileak hiru baliabide ditu eskura: euskarazko corpus elebakarra, euskara-gaztelania corpus paraleloa eta euskarazko corpusetik automatikoki erauzitako hitz-konbinazioak. Tresna horiek Internetetik automatikoki eratu dituzte, fundazioko I+G taldeak garatutako teknologiari esker.
Euskarazko corpusari dagokionez, orain arte eratu den handiena dela azaldu dute, alde handiz gainera, 125 milioi hitz inguru jasotzen baititu. Sarean dauden mota eta arlo guztietako testuak biltzen ditu eta linguistikoki etiketatuta dago.
Corpus paraleloaren atalean, webean automatikoki atzemandako euskara-gaztelania gune eta dokumentu elebidunak esaldi mailan parekatu dituzte, automatikoki hauek ere. 18 milioi hitz ditu corpus honek gutxi gorabehera; egungo euskara-gaztelaniako corpus paralelo publiko handiena da. Aurrekoa bezala, linguistikoki etiketatua dago eta oso baliagarria da, esaterako, hizkuntza bateko hitz edo esapide bat beste hizkuntzan nola eman den jakiteko.
Azkenik, hitz-konbinazioen atalean, euskarazko corpusetik automatikoki erauzitako hiru motatako konbinazioak eskaintzen dituzte: izen+aditz, izen+izen, izen+izenondo. Horiekin, adibidez, erabiltzaileak ikus dezake izen jakin batekin zein aditz konbinatzen diren, neurri estatistiko batzuen arabera ordenatuta, baita horien testuinguruak bistaratu ere.
«Badu Bada»-ra gonbidapena
Atariari buruz gehiago jakin nahi duenak asteazkenean, arratsaldeko bostetan du horretarako aukera. Josu Aztiria Elhuyar Fundazioko Hizkuntza eta Teknologia unitateko zuzendaria, Igor Leturia I+Gko arduraduna eta Antton Gurrutxaga Hiztegigintzako arduraduna izango dira argibideak ematen. Tresnaz gain, hau eraikitzeko erabilitako teknologia azalduko dute eta hizkuntzen azterketan, adibidez lexikografian, sintaxian eta semantikan baliabide gisa duen garrantziaz jardungo dute.