Show simple item record

dc.contributor.advisorAgirre Bengoa, Eneko
dc.contributor.advisorSoroa Echave, Aitor
dc.contributor.authorOrmazabal Oregi, Aitor
dc.contributor.otherF. INFORMATICA
dc.contributor.otherINFORMATIKA F.
dc.date.accessioned2019-10-17T15:17:04Z
dc.date.available2019-10-17T15:17:04Z
dc.date.issued2019-10-17
dc.identifier.urihttp://hdl.handle.net/10810/36044
dc.description.abstractHitz-embeddingak bokabulario bateko hitzen eta bektore espazio baten arteko mapaketak dira. Embedding horiek hitzak bektore espazio bateko puntu bezala adieraztea ahalbidetzen digute, eta hizkuntza prozesamenduko arloko hainbat atazatan arrakasta handia izan dute. Hitz-embedding elebidunak bi hizkuntzetako hitzak bektore espazio berdinera mapatzen dituzten embeddingak dira. Embedding horiek sortzeko metodoak bi klasetan sailka daitezke: mapaketa metodoak eta aldibereko metodoak. Mapaketa metodoek hizkuntza bakoitzeko embeddingak independenteki sortu eta ondoren transformazio linealen bidez espazio amankomun batera mapatzen dituzte. Aldibereko metodoek, berriz, zuzenean espazio amankomunan ikasten dituzte bi hizkuntzetako bektoreak. Azken urteetan embedding elebidunen inguruko ikerkuntza mapaketa metodoetara bideratuta egon da. Metodo horiek gainbegiratze maila oso txikia eskatzen dute, eta corpus elebakarrekin entrenatu daitezke; ondorioz, arrakasta handia izan dute aplikazio praktikoetan. Dena den, badituzte arazoak. Arazo horietako bat hubness delakoa da. Hubnessak eragiten du dimentsio altuko espazioetan puntu gutxi batzuk beste puntu askoren gertukoen auzokideak izatea, eta embedding elebidunen kalitatean eragin negatiboa du. Lan honetan fenomeno honen hainbat iturri posible proposatzen ditugu, eta bakoitzaren eragina neurtzen dugu. Gainera, mapaketa metodoen erabilera justifikatzeko isomorfismo hipotesia erabili izan da, hizkuntza desberdinetako embeddingek egitura antzekoa dutela esaten duena. Hainbat autorek hipotesi hori zalantzan jarri dute, eta frogatu dute betetzen ez denean mapaketa metodoek ez dutela ondo funtzionatzen. Hala ere, ez dago argi ea egituren desberdintasun hori mapaketa metodoen muga bat den, edo embedding elebidunak ikastean agertzen den arazo orokorrago bat den. Hori aztertzeko, corpus paraleloak erabiliz mapaketa metodoak eta aldibereko metodoak alderatzen ditugu. Frogaten dugu, baldintza ideal hauetan, aldibereko ikasketa metodoen bidez sortatuko embeddingak hobeto lerrokatzen direla, hubness txikiagoa dutela, eta hiztegi indukzioan errendimendu hobea dutela. Halaber, ondorioztatzen dugu egungo mapaketa metodoek muga larriak dituztela, eta ikerkuntza lerro interesgarria izan daitekela seinale elebidun ahulago batekin embedding elebidunak ikasteko aldibereko teknikak aztertzea.es_ES
dc.language.isoeuses_ES
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjecthizkuntza prozesamenduaes_ES
dc.titleEmbedding eleartekoak sortzeko mapaketa metodoen mugen azterketaes_ES
dc.typeinfo:eu-repo/semantics/bachelorThesis
dc.date.updated2019-06-18T07:38:18Z
dc.language.rfc3066es
dc.rights.holder© 2019, el autor
dc.identifier.gaurregister96783-809708-10
dc.identifier.gaurassign90986-809708


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record