GARA > Idatzia > Kultura

«Euskararen altxor idatzia", gozagarri Klasikoen Gordailuan

Armiarma literatur atari digitala oinarri, Susa argitaletxeak ez du bere erronkan etsi 2005ean euskal literaturako 200 liburu baino gehiago biltzen zituen Klasikoen Gordailua aurkeztu zuenetik. Ondorioz, «euskararen altxor idatziaz" era antolatuan goza daiteke egun sarean.

GARA | DONOSTIA

Susa argitaletxeak 2005eko apirilean abiatu zuen Klasikoen Gordailua, eta harrezkero, euskal testu klasikoen gordailua gauzatu asmoz sortutako web orria XX. mende bitarteko idatzi klasiko ia guztien bilgune izatera iritsi da. Adibide gisa, datu esanguratsu bat: hasieran 205 liburu biltzen zituen Klasikoen Gordailuak, baina 2006ko abenduan 374 ziren dagoeneko sareratutako liburuak.

Arduradunek asteartean Donostiako Koldo Mitxelena kulturgunean gogorarazi zutenez, hurrengo helburua dute: «Euskaraz ekoitzitako testuak, klasikoak deritzogunak, Interneten denontzat erabilgarri eta irakurgarri izatea, betiere doan. Gure hizkuntza osatzen eta aberasten duten testuak dira, eta gure literatura osatu dute. Euskararen altxor idatzia da».

Beti izan ohi dira liburutegietan lortu ezin diren testuak, edota, argitalpen bateraturik izan ez dutenak. Bada, horiek guztiak gordailu honetara ekarri nahian dabiltza, «gure ondarea osatuz euskararen altxorra guztiok erabilgarri eta gozagarri izango baitugu». Idazlan guztiak hiru formatutan eskaintzen dira: HTML, RTF et PDF.

«Corpus arakatzailea»

Sareko gordailua sortu zen une berean jaio zen «Corpus arakatzailea» tresna bera ere: http://klasikoak.armiarma.com/corpus.htm. Hori bai, hasierako 205 liburuen ostean web orrian eskegitako liburuak ez dira oraindik ere arakatzaile horretara gehitu. Hala ere, Lakuako Gobernuaren dirulaguntzari esker, corpus arakatzailea eguneratu eta corpusa bera eskaintzea erabaki zen iaz.

«Klasikoen corpusa» tresnak corpusa modu egituratuan eta etengabe eguneratua eskaintzea du xede, dagozkion kontsulta tresnekin batera. Orotara 374 liburuz, 10,4 milioi hitzez eta 64,7 milioi karaketerez osatua dago.

Arduradunen esanetan, orain arte testuak bakarrik sareratu dituzten arren, aurrerantzean «corpus bati dagokion bezala, testu multzoa behar bezala aztertzeko eta ustiatzeko tresnak eta baliabideak eskainiko dira». Horretarako, aldiz, bi emaitza mota ezberdintzen dituzte: «Corpus arakatzailea», idatzietan bilaketak egiteko bidea eskaintzen duena; eta corpusa bera, sailkatua eta etiketatua -corpusa web orrian eskura daiteke, eta interesatuek bi modutara jaitsi dezakete-.

Arduradunek komunikabideen aurrean nabarmendu zutenez, datozen urteotan gordailua «etengabe osatzeko eta zuzentzeko» erronkari eusten diote. Hurrengoa ere erantsi zuten: «Aurkezten dugun proiektu honen emaitzari esker, gaineratuko edo zuzenduko den edozein testu automatikoki eguneratua izango da corpusean bertan zein arakatzailean».

Ezaugarri teknikoei dagokienez, bestalde, hainbat informazio eta formatu ezaugarri gaineratu zaizkie testuei. Izan ere, alde batetik informazio organiko gehitu da -egilea, izenburua, data, generoa...-, eta bestetik, egitura eta tipografia hobekuntzak egin dira -atalak, aipuak, erderetako testuak-.

Etiketatze horrez gain, aztertzeko eta ustiatzeko tresnak ere eskaintzen dira. Tresna horietan hitz bat edo gehiagoren bilaketa egin daiteke hainbat irizpide aintzat hartuz: adibidez, generoa edo euskalkia.

Edukiak zein euskararen beste corpusak

Web orrian testu edo liburu zehatzak bilatzeko ezaugarri teknikoak ez ezik edukiaren gainekoak ere balia daitezke. Esaterako, garaiaren arabera sailkapen mardula eskaintzen da, XVI. mendean hasi eta XX. mendera arte . Azken atal horretan %37,20 dute bilduta. Bilaketak generoaren arabera egiteko, aldiz, honako esparruak agertzen dira: erlijioa (%33,63), poesia (%16,07), antzerkia (%13,69), narratiba (%15,47), saiakera (%15,17) eta bertsolaritza (%5,95). Hirugarrenik, euskalkiaren arabera sailkatutakoak ere aurki daitezke. Euskarazko corpusean hainbat produktu eta aplikazioa garatu dira orain arte. Bertan, hurrengo esparruak bereizten dira: Ereduzko Prosa Gaur, 2000 urtetik gaur egun arte egindako liburuak eta prentsa jasotzen dituena (23,8 milioi hitz); XX. mendeko Euskararen Corpus Estatistikoa, iragan mendeko orotariko argitalpen laginez osatua (4,7 milioi hitz); eta Zientzia eta Teknologiaren Corpusa, gai zientifiko eta teknologiei buruzkoa (7,6 milioi hitz). Klasikoen Corpusa da osotasunean eta modu librean eskuragarri dagoen bakarra. GARA
HELBURU ZEHATZA
Euskal literaturako lehen argitalpenetik 1936ko gerrak ezarritako muga heldu zen arte ekoitzi ziren literatur testuak biltzeko asmoz jaio zen gunea: «Ez dira gordeta edukitzeko testuak, erabiltzeko eta ezagutzeko testuak dira. Horrela balia daitezen da gure nahia".

Imprimatu 
Gehitu artikuloa: Delicious Zabaldu
Igo