Embedding eleartekoak sortzeko mapaketa metodoen mugen azterketa
Laburpena
Hitz-embeddingak bokabulario bateko hitzen eta bektore espazio baten arteko mapaketak dira. Embedding horiek hitzak bektore espazio bateko puntu bezala adieraztea ahalbidetzen digute, eta hizkuntza prozesamenduko arloko hainbat atazatan arrakasta handia izan dute. Hitz-embedding elebidunak bi hizkuntzetako hitzak bektore espazio berdinera mapatzen dituzten embeddingak dira. Embedding horiek sortzeko metodoak bi klasetan sailka daitezke: mapaketa metodoak eta aldibereko metodoak. Mapaketa metodoek hizkuntza bakoitzeko embeddingak independenteki sortu eta ondoren transformazio linealen bidez espazio amankomun batera mapatzen dituzte. Aldibereko metodoek, berriz, zuzenean espazio amankomunan ikasten dituzte bi hizkuntzetako bektoreak.
Azken urteetan embedding elebidunen inguruko ikerkuntza mapaketa metodoetara bideratuta egon da. Metodo horiek gainbegiratze maila oso txikia eskatzen dute, eta corpus elebakarrekin entrenatu daitezke; ondorioz, arrakasta handia izan dute aplikazio praktikoetan. Dena den, badituzte arazoak.
Arazo horietako bat hubness delakoa da. Hubnessak eragiten du dimentsio altuko espazioetan puntu gutxi batzuk beste puntu askoren gertukoen auzokideak izatea, eta embedding elebidunen kalitatean eragin negatiboa du. Lan honetan fenomeno honen hainbat iturri posible proposatzen ditugu, eta bakoitzaren eragina neurtzen dugu.
Gainera, mapaketa metodoen erabilera justifikatzeko isomorfismo hipotesia erabili izan da, hizkuntza desberdinetako embeddingek egitura antzekoa dutela esaten duena. Hainbat autorek hipotesi hori zalantzan jarri dute, eta frogatu dute betetzen ez denean mapaketa metodoek ez dutela ondo funtzionatzen. Hala ere, ez dago argi ea egituren desberdintasun hori mapaketa metodoen muga bat den, edo embedding elebidunak ikastean agertzen den arazo orokorrago bat den. Hori aztertzeko, corpus paraleloak erabiliz mapaketa metodoak eta aldibereko metodoak alderatzen ditugu. Frogaten dugu, baldintza ideal hauetan, aldibereko ikasketa metodoen bidez sortatuko embeddingak hobeto lerrokatzen direla, hubness txikiagoa dutela, eta hiztegi indukzioan errendimendu hobea dutela. Halaber, ondorioztatzen dugu egungo mapaketa metodoek muga larriak dituztela, eta ikerkuntza lerro interesgarria izan daitekela seinale elebidun ahulago batekin embedding elebidunak ikasteko aldibereko teknikak aztertzea.