Testu eta irudien arteko antzekotasun semantikoa aztertzen
View/ Open
Date
2019-09-30Author
Salaberria Saizar, Ander
Metadata
Show full item recordAbstract
Lengoaia Naturalaren Prozesamendu eta Ikusmen Artifizialaren arloaren erdigunean mo-
dalitate anitzak, irudi eta testuak, aldi berean prozesatzea da helburu nagusietako bat.
Proiektu honetan modalitate anitzeko sistemen estimazioak modalitate bakarra erabiltzen
dutenena baino hobeagoak diren aztertu da. Hori burutzeko testu eta irudien arteko antze-
kotasun semantikoak aztertu dira, STS eta vSTS atazen bidez. STS modalitate bakarreko
ataza da, non bi esaldiren arteko antzekotasun semantikoak aztertzen diren. IXA taldeak
berriki sortu duen vSTS atazan, aldiz, testu eta irudien errepresentazioak maneiatzen dira
esaldien arteko antzekotasun semantikoak aztertzeko —hots, modalitate anitzeko ataza
bat da—. Kasu honetan, esaldi bakoitza irudi batez lagunduta dator, esaldi hori irudiaren
goiburukoa edo captiona delarik.
Ataza horiek ebazteko artearen egoeran dauden hainbat motatako neurona-sare sakon
landu dira. Hauen artean modalitate bakarra erabiltzen duten BERT, GloVe, GPT-2 eta
USE sistemak aurkitzen dira, baita modalitate anitzeko errepresentazioak eraikitzen di-
tuen VSE++ sarea ere. Sistema hauek STS eta vSTS atazetara moldatu dira, hauen erren-
dimendua kasu ez-gainbegiratu eta gainbegiratuetan aztertuz. Aipatutako sistemak vSTS
datu multzoan probatu dira. Datu multzo hau proiektu honetatik kanpo sortu eta hedatu
bada ere, bere garapena sakon aztertu dugu.
Gainera, modalitate anitzeko sistema berri bat sortu da, DiscoGAN arkitekturan oinarri-
tuta dagoena, DiscoGAN-M 3 . DiscoGAN-M 3 sistemak modalitate anitzeko errepresenta-
zioekin lan egiten ez badu ere, bi modalitateen arteko transformazioak ikasten ditu. Arki-
tektura berri honen logika, eraikuntza eta ikasketa prozesuak sakonki azaldu dira.
Gure lanak modalitate anitzeko adierazpenak erabiltzean emaitza hobeagoak lortzen dire-
la erakusten du esperimentu ez-gainbegiratuetan. Hala ere, esperimentu gainbegiratuetan
ez da horrela izan. Kasu horretan atentzio-mekanismoak erabiltzen dituen BERT bezala-
ko Transformerrek emaitza onenak lortzen dituzte, vSTS atazan artearen egoera definituz.
Egindako lanak modalitate anitzeko adierazpenen kontribuzioa erakusten badu ere, kasu
gainbegiratuetan emaitzak hobetzeko aukera asko daudela uste da.