Integrazioa hizkuntzaren prozesamenduan. Anotazio-eskemak eta elkarreragingarritasuna.Testuen prozesatze masiboa, datu handien teknikak erabiliz
Abstract
Tesi-lan honetan hizkuntzaren prozesamenduko tresnen integrazioa landudugu, datu handien teknikei arreta berezia eskainiz. Tresnenintegrazioa, izatez, bi mailatan landu dugu: anotazio-eskemen mailaneta prozesuen mailan.Anotazio-eskemen mailako integrazioan tresnen artekoelkarreragingarritasuna lortzeko lehenbiziko pausoak aurkeztea izandugu helburu. Horrekin lotuta, bi anotazio-eskema aurkeztu ditugu:Anotazio-Amaraunen Arkitektura (AWA, Annotation Web Architecture) etaNLP Annotation Format (NAF). AWA tesi-lan honekin hasi aurretik sortuaizan zen, eta orain formalizazio-lan bat egin dugu berarekin,elkarreragingarritasunari arreta berezia jarriz. NAF, bere aldetik,eskema praktikoa eta sinplea izateko helburuekin sortu dugu. Bianotazio-eskema horietatik abiatuz, eskemarekiko independentea deneredu abstraktu bat diseinatu dugu. Abstrakzio horri esker,elkarreragingarritasunerantz jotzeko bidea zabaldu nahi izan dugu,eredu abstraktua edozein eskemarekin bateragarria dela argudiatuz.Bestalde, tresnen prozesu mailako integrazioa ere landudugu. Horretarako, analisi-kateak modu malguan eta deklaratiboaneraikitzeko azpiegitura bat diseinatu eta inplementatu dugu. Gainera,azpiegitura horretan oinarrituz eta datu handien teknikak aplikatuz,testu-dokumentuen bilduma erraldoiak modu banatuan eta eskalagarrianprozesatzeko arkitektura bat diseinatu eta inplementatu dugu. Sistemahori hainbat nodoz osatutako terminal talde batean ezarriz, baianalisi-kateko tresnak eta bai prozesatu beharreko dokumentuak,automatikoki, eskura dauden nodoetan zehar banatuko dira, sistemaosoaren ahalmenari ahalik eta etekin handiena ateraz.