Euskarazko lehen corpus espezializatua, zientzia eta teknologiarena, sarean dago
Elhuyar Fundazioak eta EHUko IXA taldeak zientzia eta teknologiaren alorreko euskara ikertzeko hizkuntza-baliabide bat garatu dute: Zientzia eta Teknologiaren Corpusa. Euskarazko lehen corpus berezitua da atzo bertan aurkeztu zutena; zortzi milioi hitz ditu eta dagoeneko sarean dago kontsultatzeko moduan: «www.ztcorpusa» helbidean.
USURBIL
Zientziaren eta teknologiaren alorrean gorabehera dezente daude euskara batuarekin, gauza bera modu desberdinetan esaten baita askotan. Aukera horietan zuzenena edota egokiena zein den erabakitzeko, oso lagungarria izango da aurrerantzean Elhuyar Fundazioak eta EHUko IXA taldeak garatu duten Zientzia eta Tekno- logiaren Corpusa. Atzo ezkero sarean dago kontsultatzeko; «www.ztcorpusa.net» helbidean, hain justu. Hizkuntza-baliabide hori osatzeko zientziaren eta teknologiaren alorreko euskarazko testuen bilduma egituratu eta etiketatu da. Hartara, 1990 eta 2002 urte bitartean argitaratutako zientzia eta teknologiaren alorreko obrak hartu dituzte kontuan. Corpusaren lehen bertsioan zortzi milioi hitz daude, eta, horietatik, 1,6 milioi hitz eskuz berrikusi dituzte.
Esaterako, nola esaten da, programazio lengoaia edo programazio hizkuntza? Hiztegi batean begiratuz gero, hitzari buruzko informazioa ematen du, baina ez du kontestuan sartzen. Corpusak bata eta bestea zenbat aldiz eta zein testutan argitaratu den eta nork erabili duen esaten du datu zehatzekin. IXA taldeko Ińaki Alegriak agertu zuen: «Saihestu nahi duguna zera da: produkzioa eta idazleen lana kontsultatu gabe erabakiak hartzea. Datuak ez dira dena, baina horiek gabe ezin dira erabaki zuzenak hartu». «Corpusak asko erabiltzen dira linguistikan, eta zientzia eta teknologiaren arloan terminologia finkatzeko behar handia dago. Horregatik da garrantzitsua corpusa», gaineratu zuen. Modu berean, corpus berezitu hori garrantzitsua da hizkuntz teknologiaren alorrerako; itzulpen automatiko, zuzentzaile ortografiko eta informazioaren bilaketarako, besteren artean. Zientzia eta Teknologiaren Corpusa corpus nazional batekin osagarria izateko moduan dago diseinatuta. Euskaltzaindiak XX. mendeko corpusa garatu zuen, bost milioi hitzekin. Baina, oraingoz, ez dago euskararen corpus nazional eguneraturik, nahiz eta Lakuako Gobernuak esana duen bere erronken artean dagoela hori garatzea. Alegriak corpus nazional horren beharra nabarmendu zuen: «Hizkuntza guztietan egina daukate corpus nazionala, 50 eta 100 milioi hitz ingurukoak. Euskarak erreferentziazko corpus digital baten beharra dauka, eta orain guk egin dugun corpus berezitua horren osagarria izango da».
|