Text Similarity. Estudio de la similaridad entre conceptos médicos
Laburpena
Castellano: El presente Trabajo Final de Grado expone los procesos realizados para, primero obtener en
un formato csv la Clasificación Internacional de Enfermedades (CIE-10) -emitida por la OMS- contenida en un fichero pdf plano, generando un “diccionario” (en castellano) de las enfermedades y sus códigos CIE asociados contenidos en dicho fichero pdf.
Por otro lado, el presente trabajo también se plantea como objetivo fundamental implementar una aplicación que sea capaz de asignar a un término de uso regular (normalmente un término no estándar) un código dentro de la clasificación CIE-10. Para llevar a cabo la asignación, primero, se identifica el termino estándar que muestre mayor similitud respecto del no-estándar de entrada, y luego se devolverá el código CIE del término estándar identificado como mejor candidato o candidatos con mayor similitud. La similitud-semejanza se calcula mediante la aplicación de distintas técnicas de similitud de textos, entre el término no-estándar y todos los estándar pertenecientes al “diccionario”.
Asimismo, y finalmente, este proyecto también pretende medir la bonanza de las distintas alternativas propuestas para seleccionar la más adecuada dependiendo de la explotación posterior. Euskera: Gradu Amaierako Lan honek, lehen bidez, OMS igorritako “Clasificación Internacional de Enfermedades (CIE-10)” ‘csv formatuan izan ahal izateko prozedurak aurkezten ditu. Modu horretan, pdf dokumentu bat erabiliko da sailkapen honen informazioa lortzeko. Dokumentuan aurkitzen diren gaixotasun guztien izena, informazioa eta kodigoak berreskuratuko dira, gaztelania “hiztegia” sortuz.
“Hiztegia” sortu ondoren, termino ez-estandarrei CIE-10-eko kodigo bat esartzeko aplikazioa implementatzen da. Egokipen hau aurrera eraman dadin, lehenbiziz, termino estandar eta ez-estandarraren arteko parekotasuna kalkulatu egiten da, eta parekotasun handiago aurkezten duen estandar terminoaren CIE kodigoa erantsi egiten da.
Azkenik, proiektu honek proposatutako alternatiben arteko emaitzak neurtu nahi ditu, ustiapenaren arabera egokienak hautatzeko. Inglés: The current dissertation exposes the processes that have been carried out in order to, first, obtain The International Classification of Diseases (ICD 10) broadcast by WHO (World Health Organization) in csv format which is included in a plain pdf text document generating a (Spanish Dictionary) about the illnesses and their CIE codes which are also included in the mentioned pdf file.
After this vital step (obtaining the "dictionary"data), the current work also considers as a fundamental objective to implement an application capable of assigning to regular use term (usually a non-standard term) a code within the ICD-10 classification. To carry out the assignment, first, the standard term that shows more similarity with respect to the non standard input, is identified and then the CIE code of the standard term identified as best candidate or candidates with greater similarity will be returned. The similarity-measure is calculated by applying different text similarity techniques, between the non-standard string and all the standards belonging to the “Dictionary”.
Finally, this project also aims to measure the bonanza of the different proposed alternatives in order to select the most appropriate depending on the subsequent exploitation.