Show simple item record

dc.contributor.advisorAzkune Galparsoro, Gorka
dc.contributor.advisorSalaberria Saizar, Ander
dc.contributor.authorAtxa Landa, Eneko
dc.contributor.otherMáster Universitario en Ingeniería Computacional y Sistemas Inteligentes
dc.contributor.otherKonputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate Masterra
dc.date.accessioned2022-12-23T09:35:01Z
dc.date.available2022-12-23T09:35:01Z
dc.date.issued2022-12-23
dc.identifier.urihttp://hdl.handle.net/10810/58980
dc.description.abstractLan honetan, irudiak eta testua prozesatzen dituzten transformer multimodalak aztertu dira, irudiak prozesatzeko garaian objektuen posizioa kodetzeko duten eran sakonduz. Ikerketa hori egiteko, objektuen posizioa kodetzeko modu, edo spatial embedding, desberdinak konparatu dira elkarren artean. Oinarritzat VisualBERT izeneko transformer multimodal bat hartu da, zeinak ez duen spatial embeddingik erabiltzen izatez, eta hainbat embedding inplementatu dira eta elkarren artean konparatu. Visual question answering (VQA) hartu da konparatzeko erabiliko den ataza bezala, zeinetan irudi bat eta honen gaineko galdera bat hartuta galderari erantzun behar zaion. Bertan ikusiko da ea spatial embedding desberdinek nolako eragina duten galderei erantzuterako garaian. VQA v2.0 datu-multzoa erabiliko da probak egiteko hasieran, atazari lotua dagoen datu-multzoa izanik. Ondoren, honen azpimultzo bat egingo da, galdera espazialek soilik osaturiko instantziak hartuz, ikusteko, espezifikoki arrazonamendu espazialean nolako eragina duen. Gainera, beste bi transformer multimodalekin konparatuko da VisualBERT, LxMERT eta ViLTekin, hauek integratzen dituztelako spatial embeddingak hasieratik, eta beraz, ondorioak ateratzen lagundu dezakeelako konparaketa honek. Esperimentazio eta konparaketaren ondoren, hainbat ondorio aterako dira: lehenik, ikusiko da, spatial embeddingek ez dutela diferentziarik suposatzen VQA atazan VisualBERT erabiltzerakoan. Gainera, honen arrazoia, ziurrenik, sareen aurre-entrenamendua dela argudiatuko da, informazio espaziala erabiltzen ikasteko fine-tuning fasea nahikoa ez dela ondorioztatuz. Horiek horrela, etorkizunerako hainbat ikerketa proposamen egingo dira, spatial embeddingak hobeto erabiltzen ikasteko helburuarekin.es_ES
dc.language.isoeuses_ES
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectikaskuntza sakonaes_ES
dc.subjectataza multimodalakes_ES
dc.subjecttransformerrakes_ES
dc.subjectikusmen artifizialaes_ES
dc.subjectlengoaia naturalen prozesamenduaes_ES
dc.titleInformazio espaziala aztertzen eredu multimodaletanes_ES
dc.typeinfo:eu-repo/semantics/masterThesis
dc.date.updated2022-09-05T05:55:58Z
dc.language.rfc3066es
dc.rights.holder© 2022, el autor
dc.contributor.degreeMáster Universitario en Ingeniería Computacional y Sistemas Inteligentes
dc.contributor.degreeKonputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate Masterra
dc.identifier.gaurregister126510-834647-11es_ES
dc.identifier.gaurassign138481-834647es_ES


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record