Show simple item record

dc.contributor.advisorSoroa Echave, Aitor ORCID
dc.contributor.advisorArganda Carreras, Ignacio
dc.contributor.authorElu Etxano, Aitzol
dc.date.accessioned2020-02-28T10:16:35Z
dc.date.available2020-02-28T10:16:35Z
dc.date.issued2020-02-25
dc.date.submitted2020-02-24
dc.identifier.urihttp://hdl.handle.net/10810/41855
dc.description.abstract[EU]Gizaki-makina elkar-ulertzea eskatzen duten hainbat atazetarako ezinbestekoa da objektuen arteko erlazio espazialak ulertzea, eta hauen distribuzio espazialen jakintza izatea. Irudiek, bertan agertzen diren objektuen arteko erlazio espazialak gordetzen dituzte, baina baita irudien testuzko deskribapenek ere. Irudien testuzko deskribapenek erlazio espazialei buruzko informazio esplizitua erakutsi arren; kasu askotan, informazio inplizitua gordetzen dute. Inplizituki agertzen den informazio hau ulertzeko, ezinbestekoa da objektuen eta testuinguruaren oinarrizko jakintza izatea. Aurrez garatutako proiektuek, subjektu, erlazio eta objektuen arteko interakzioa baliatuz, objektuaren kaxa inguratzailea (Bounding Box) iragartzea izan dute helburu. Hirukotea osatzen duten hitzak ontologia bateko kontzeptuak izanik. Proiektu honetan testuzko deskribapenek objektua irudian kokatzeko baliagarria den informazio gordetzen dutela erakutsiko da; lehenengo aldiz, eskuz etiketatutako kontzeptu hirukoetan emaitzak hobetuz. Relations in Captions (REC-COCO) datu multzoa sortu da frogapen hau egiteko. Datu multzo hau MS-COCO eta V-COCO datu multzoen uztarketaren emaitza da. Hau sortzeko irudietan agertzen diren objektuen, eta testuzko deskribapenetan agertzen direnen arteko lotura egin da. Proiektu honetan ondorengoa frogatu da: (1) testuzko deskribapenetatik lortutako hirukoteei testuzko deskribapenaren informazioa gehitzean, ontologiako kontzeptu hirukoetan errendimendua hobetzen da; (2) hobekuntza mantendu egiten da subjektu eta objektua soilik erabiltzean, esplizituki adierazi gabe zein den bi hauen arteko erlazioa. Beste modu batera esanda, testuzko deskribapena eta objektu-subjektu erreferentzia izanik, eredua gai da objektuaren posizioa eta tamaina zehazteko.es_ES
dc.description.abstract[EN]Understanding spatial relations between objects and their distribution in space is essential for human-machine collaboration in general and for specific tasks such as composing sketched scenes, or image generation from textual descriptions (captions). Textual descriptions include explicit spatial relations, but often spatial information is implicit and relies on a common understanding of objects and their context. Previous work on extracting spatial relations from text has predicted bounding boxes using (subject, relation, object) triplets of ontology concepts as input. We show for the first time that the captions encode background information which is useful to place objects in an image, yielding better results than manually defined concept triplets. To prove this we have built Relations in Captions (REC-COCO), a dataset derived from MS-COCO which contains associations between words in a caption and the corresponding bounding boxes in the image. We have adapted a well-known model to the task, with the results showing that: (1) the use of the full text of the caption in addition to the textual triplet allows to improve over manual concept triplets; (2) the improvement also holds when only using the subject and object, without explicitly detecting which is the textual relation. From another perspective, our work shows that given a caption, a reference subject and the object in the caption, the system can assign a location and a size to the object using the information in the caption alone.es_ES
dc.description.sponsorshipThis project was partially supported by the project DeepReading (RTI2018-096846-BC21) supported by the Spanish Government, the Basque Government excellence research group (IT1343-19) and Etorkizuna Eraikiz 2019
dc.language.isoenges_ES
dc.relationinfo:eu-repo/granAgreement/MINECO/RTI2018-096846-BC21
dc.rightsinfo:eu-repo/semantics/openAccesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/3.0/es/*
dc.titleInferring spatial relations from textual descriptions of imageses_ES
dc.typeinfo:eu-repo/semantics/masterThesises_ES
dc.rights.holderAtribución-NoComercial-CompartirIgual 3.0 España*
dc.departamentoesCiencia de la computación e inteligencia artificiales_ES
dc.departamentoeuKonputazio zientziak eta adimen artifizialaes_ES


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Atribución-NoComercial-CompartirIgual 3.0 España
Except where otherwise noted, this item's license is described as Atribución-NoComercial-CompartirIgual 3.0 España