Informazio espaziala aztertzen eredu multimodaletan

Atxa Landa, Eneko

dc.contributor.advisor	Azkune Galparsoro, Gorka
dc.contributor.advisor	Salaberria Saizar, Ander
dc.contributor.author	Atxa Landa, Eneko
dc.contributor.other	Máster Universitario en Ingeniería Computacional y Sistemas Inteligentes
dc.contributor.other	Konputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate Masterra
dc.date.accessioned	2022-12-23T09:35:01Z
dc.date.available	2022-12-23T09:35:01Z
dc.date.issued	2022-12-23
dc.identifier.uri	http://hdl.handle.net/10810/58980
dc.description.abstract	Lan honetan, irudiak eta testua prozesatzen dituzten transformer multimodalak aztertu dira, irudiak prozesatzeko garaian objektuen posizioa kodetzeko duten eran sakonduz. Ikerketa hori egiteko, objektuen posizioa kodetzeko modu, edo spatial embedding, desberdinak konparatu dira elkarren artean. Oinarritzat VisualBERT izeneko transformer multimodal bat hartu da, zeinak ez duen spatial embeddingik erabiltzen izatez, eta hainbat embedding inplementatu dira eta elkarren artean konparatu. Visual question answering (VQA) hartu da konparatzeko erabiliko den ataza bezala, zeinetan irudi bat eta honen gaineko galdera bat hartuta galderari erantzun behar zaion. Bertan ikusiko da ea spatial embedding desberdinek nolako eragina duten galderei erantzuterako garaian. VQA v2.0 datu-multzoa erabiliko da probak egiteko hasieran, atazari lotua dagoen datu-multzoa izanik. Ondoren, honen azpimultzo bat egingo da, galdera espazialek soilik osaturiko instantziak hartuz, ikusteko, espezifikoki arrazonamendu espazialean nolako eragina duen. Gainera, beste bi transformer multimodalekin konparatuko da VisualBERT, LxMERT eta ViLTekin, hauek integratzen dituztelako spatial embeddingak hasieratik, eta beraz, ondorioak ateratzen lagundu dezakeelako konparaketa honek. Esperimentazio eta konparaketaren ondoren, hainbat ondorio aterako dira: lehenik, ikusiko da, spatial embeddingek ez dutela diferentziarik suposatzen VQA atazan VisualBERT erabiltzerakoan. Gainera, honen arrazoia, ziurrenik, sareen aurre-entrenamendua dela argudiatuko da, informazio espaziala erabiltzen ikasteko fine-tuning fasea nahikoa ez dela ondorioztatuz. Horiek horrela, etorkizunerako hainbat ikerketa proposamen egingo dira, spatial embeddingak hobeto erabiltzen ikasteko helburuarekin.	es_ES
dc.language.iso	eus	es_ES
dc.rights	info:eu-repo/semantics/openAccess
dc.subject	ikaskuntza sakona	es_ES
dc.subject	ataza multimodalak	es_ES
dc.subject	transformerrak	es_ES
dc.subject	ikusmen artifiziala	es_ES
dc.subject	lengoaia naturalen prozesamendua	es_ES
dc.title	Informazio espaziala aztertzen eredu multimodaletan	es_ES
dc.type	info:eu-repo/semantics/masterThesis
dc.date.updated	2022-09-05T05:55:58Z
dc.language.rfc3066	es
dc.rights.holder	© 2022, el autor
dc.contributor.degree	Máster Universitario en Ingeniería Computacional y Sistemas Inteligentes
dc.contributor.degree	Konputazio Ingeniaritza eta Sistema Adimentsuak Unibertsitate Masterra
dc.identifier.gaurregister	126510-834647-11	es_ES
dc.identifier.gaurassign	138481-834647	es_ES

Files in this item

Name:: MAL_Atxa_Eneko.pdf
Size:: 7.301Mb
Format:: PDF
Description:: Artikulu nagusia

View/Open

This item appears in the following Collection(s)

Máster Universitario en Ingeniería Computacional y Sistemas Inteligentes

Show simple item record