Koherentziazko diskurtso erlazioen detekzio automatikoa patroien bidez, XMLko erlazio-egiturak oinarri hartuta
Ikusi/ Ireki
Data
2016-07-15Egilea
Kortajarena Guridi, Asier
Laburpena
[EU]Hizkuntzaren prozesamenduan testu koherenteetan kausa taldeko erlazioak (KAUSA,
ONDORIOA eta HELBURUA) automatikoki hautematea eta bereiztea erabilgarria da
galdera-erantzun automatikoko sistemak eraikitzerako orduan. Horretarako Egitura
Erretorikoaren Teoria (Rhetorical Structure Theory, aurrerantzean RST) eta bere
erlazioak erabiliko ditugu, corpus bezala RST Treebank -a (Iruskieta et al., 2013) hartuta,
zientziako laburpen-testuz osatutako corpusa, hain zuzen ere. Corpus hori XML
formatuan deskargatu eta hortik XPATH tresnaren bidez informazio garrantzitsuena
eskuratzen dugu. Lan honek 3 helburu nagusi ditu: lehendabizi, kausa taldeko erlazioak
elkarren artean bereiztea, bigarrenez, kausa taldeko erlazio hauek beste erlazio guztiekin
bereiztea, eta azkenik, EBALUAZIOA eta INTERPRETAZIOA erlazioak bereiztea
sentimendu analisian aplikatu ahal izateko. Ataza horiek egiteko, RhetDB tresnarekin
eskuratu diren patroi ensaguratsuenak erabili eta bi aplikazio garatu ditugu. Alde
batetik, bilatu nahi ditugun patroiak adierazi eta erlazio-egitura duen edonolako
testuetan bilaketak egiten dituen bilatzailea, eta bestetik, patroi esanguratsuenak
emanda erlazioak etiketatzen dituen etiketatzailea. Bi aplikazio hauek gainera, ahalik eta
modu parametrizagarrienean erabiltzeko garatu ditugu, kodea aldatu gabe edonork
erabili ahal izateko antzeko atazak egiteko. Etiketatzaileak ebaluatu ondoren,
identifikatzeko erlaziorik errazena HELBURUA erlazioa dela ikusi dugu eta KAUSA eta
ONDORIOA bereizteko arazo gehiago dauzkagula ere ondorioztatu dugu. Modu berean,
EBALUAZIOA eta INTERPRETAZIOA ere elkarren artean bereiz dezakegula ikusi
dugu. [EN]At language processing an automatic detection of causal relations (CAUSE, RESULT
and PURPOUSE) would be useful in coherent texts, specially building automatic
Question Answering(QA) systems. Achieving this task, we use RST (Rethorical
Structure Theory) relations and RST Treebank (Iruskieta et al., 2013) basque corpus
which have many scientific abstract texts. We have download this corpus in XML format
and get the most important data using XPATH for information extraction. This work
has 3 goals: firstly, we want to distinguish the causal relation set among themselves,
secondly, we want to distinguish the cause subgroup relations from other relations, and
finally, distinguish EVALUATION and INTERPRETATION relation to apply on
sentiment analysis. To do so, we use some meaningful patterns extracted from RhetDB
tool and we build two programs. On the one hand, we will develop a search tool which
match patterns on the structured relation texts, and on the other hand, we will develop a
program which tags relations of a XML structured text. Both programs are also easily
configurable for anyone. After evaluating the taggers, we conclude that the easiest
relation to identify is PURPOUSE and a harder task is to distinguish CAUSE and
RESULT relations. More over, we have seen that we can distinguish EVALUATION and
INTERPRETATION among themselves.