Egungo Testuen Corpus erraldoi eta fidagarria
Euskarak, euskaldunek, beste tresna bat dute eskura, eta ez edonolakoa. EHUko Euskara Institutuak garatutako Egungo Testuen Corpusa (ETC) tresna moderno eta erabilerraza da, hainbat arazori irtenbidea emateko modukoa. Eta zabala da, inoiz bildu den corpusik handiena baita. ETCk hainbat liburu eta hedabidetatik eta Wikipediatik hartutako prosazko testuak biltzen ditu, denak ere XXI. mendekoak eta kalitateagatik hautatuak, baina baita Euskara Institutuak lehenago osatutako corpusetakoak ere, esate baterako Ereduzko Prosa Gaur izenekoan jasotako 25 milioi hitzak; hori ere ez da corpus ziztrina, hain justu, baina hala eman lezake ETCren aldean, honek 205 milioi hitz ditu-eta. Eta haren tamainak garrantzi handia badu ere, ETCren beste ezaugarri batzuk ere nabarmendu beharra dago. Esate baterako, hitz bakoitzaren gainean ematen duen informazioa eta aukera ugariak: sartutako lema eta haren aldaerak agertuko dira, hala nola horien erabilera desberdinak ikusteko aukera, hitza edo hitzaren aldaera ez ezik, esaldi osoa ere agertzen du-eta. Ibon Sarasolak, Corpusaren egileetakoak, atzo ETCren aurkezpenean esan zuenez, euskarak gero eta arazo sofistikatuagoak ditu; beraz, arazo horiei irtenbidea emateko tresna sofistikatuak behar dira. ETC halakoa da eta, batez ere, erabilgarri eta «fidagarria».