Entitateen eta erlazioen erauzketa testu klinikoetan datu etiketatu gutxirekin
Laburpena
Osakidetzako larrialdi zerbitzuetan arazo bat topatu da. Gaixo bat bertara heltzen denean, medikuek gaixoak dituen sintomen inguruko galderak egiten dizkiote eta honen erantzunak lengoaia naturala erabiliz testu klinikoetan erregistratzen dituzte. Kontua da, zenbait kasutan galdetu beharreko daturen bat ez dutela galdetzen edota ez dutela behar bezala idatzita uzten. Hau problema bat da, etorkizunean diagnosi okerrak egiteko aukera sortzen baitu.
Pazientea bularraldeko minarekin joango balitz ospitalera, sendagileak bederatzi datu erregistratu beharko lituzke. Honelako kasu batean beharrezkoa da hau egitea, bularraldeko mina gaixotasun hilgarri askoren aurrekaria izan baitaiteke. Hau jakinda, Hizkuntza Naturalaren Prozesamenduko teknikak erabiliz, bularraldeko minarekin erlazionatutako txosten klinikoetan aipatu beharreko datuen presentzia eta absentzia detektatzen duen sistema bat garatu nahi izan da.
Baina, hau garatzeko arazo nagusi bat egon da: datu etiketatuen urritasuna. Ataza hau ikasteko eskuragarri dagoen corpusa oso txikia da. Egoera hau behin baino gehiagotan errepikatzen da medikuntzaren domeinuan. Testu kliniko elektroniko ugari topatu arren, etiketatu gabe egon ohi dira. Hori dela eta, arazoari aurre egin nahi izan zaio. Honelako eszenatoki bat planteatzen den kasuan, alegia, domeinua oso murritza denean (medikuntzaren kasua) eta datu urritasuna nabaria denean, zein bide posible har daitezkeen ikertu da.
Domeinu orokorrean, datu-urritasun eszenarioetan, erlazio erauzketa ataza inferentzia ataza batean bihurtzea lagungarria dela frogatuta dago. Proiektu honen helburuetako bat, medikuntza domeinuan ondorio berdinak mantentzen direla ikustea izan da. Inferentzian oinarritutako eredu batek benetan ataza ikasteko gaitasuna ote duen frogatu da. Baita, datu gutxi edukita ataza birmoldatu gabe lortuko liratekeen ereduak aztertu ere. Bukatzeko, bi estrategiekin lortutako emaitzak alderatu dira.
Eskuraturiko emaitzak interesgarriak izan dira. Ikasketa ataza birmoldatuta, datu etiketatu gutxirekin medikuntza domeinuan sistema ahaltsuak garatzeko aukera dagoela ikusi da. Bestalde, ikasketa ataza birmoldatu gabe, hau da, erlazio erauzketa sailkapen ataza tradizional gisa planteatuta, zenbait erlaziorekin oso instantzia etiketatu gutxi behar direla ikusi da.