Show simple item record

dc.contributor.advisorAgerri Gascón, Rodrigo ORCID
dc.contributor.advisorBossy, Robert
dc.contributor.advisorCouceiro, Miguel
dc.contributor.authorVasquez Reina, Luis Antonio
dc.contributor.otherMáster Universitario E. M. en Tecnologías del Lenguaje y la Comunicación
dc.contributor.otherHizkuntzaren eta Komunikazioaren Teknologiak E. M. Masterra
dc.date.accessioned2024-09-25T17:15:15Z
dc.date.available2024-09-25T17:15:15Z
dc.date.issued2024-09-25
dc.identifier.urihttp://hdl.handle.net/10810/69554
dc.description.abstract[EN] In the field of Plant Health Epidemiological Surveillance, accurately analyzing written reports of events affecting agriculture is crucial. This master’s thesis in Natural Language Processing leverages the power of Automatic Text Classification, specifically focusing on its application in monitoring plant health. Conducted as part of the TIERS-ESV project, this work is a joint effort between the Bibliome team at the INRAE MaIAGE Laboratory and the VSI team at the PESV Plant Health Surveillance Platform. Central to our research is a dataset curated and annotated by the VSI team, consisting of reports extracted from online sources. This diverse, multilingual dataset was subjected to thorough preprocessing, applying methods for noise elimination, error message removal, and addressing scrapping errors and annotation discrepancies. We employed various BERT models for Text Classification, tailored to our dataset via Fine-tuning and a pattern-based training method. After extensive classifier training, we selected the top-performing models. The efficacy of the models obtained as a result of this work will result in the deployment of BERT-based classifiers, poised to assist the VSI experts in their monitoring mission.es_ES
dc.description.abstract[ES] En el área de la Vigilancia Epidemiológica de la Salud de las Plantas, el análisis preciso de reportes escritos sobre eventos que afectan a la agricultura es crucial. Este Trabajo de Fin de Máster en Análisis y Procesamiento del Lenguaje aprovecha las capacidades de la Clasificación Automática de Textos, específicamente, enfocándose en su aplicación al monitoreo la salud de las plantas. Realizado en el marco del proyecto TIERS-ESV, este trabajo es el resultado de una colaboración entre el equipo Bibliome de la unidad MaIAGE del laboratorio INRAE y el equipo VSI de la Plataforma de Vigilancia de la Salud de las Plantas PESV. Nuestra investigación se apoya en un conjunto de datos curados y anotados por el equipo VSI, que consiste en reportes extraídos de fuentes recopiladas en línea. Este conjunto diverso y multilingüe de datos fue sometido a un preprocesamiento exhaustivo, aplicando métodos para la eliminación de ruido, la supresión de mensajes de error y el tratamiento de errores de recopilación y discrepancias en las anotaciones. Utilizamos diversos modelos BERT para la Clasificación de Textos, adaptados a nuestro conjunto de datos mediante Fine-tuning y un método de entrenamiento basado en plantillas. Después de un entrenamiento intensivo de los clasificadores, seleccionamos los modelos de mejor rendimiento. La eficacia de los modelos obtenidos como resultado de este trabajo conducirá a la implementación de clasificadores basados en BERT, preparados para asistir a los expertos del equipo VSI en su misión de monitoreo.es_ES
dc.description.abstract[EU ]Landare Osasunaren Zaintza Epidemiologikoaren arloan, funtsezkoa da nekazaritzari eragiten dioten gertaeren idatzizko txostenak zehaztasunez aztertzea. Hizkuntza Prozesamendurako master-tesi honek testu sailkapenaren ahalmena aprobetxatzen du, bereziki landareen osasuna kontrolatzeko duen aplikazioan zentratuz. Masterreko tesi hau TIERS-ESV proiektuaren barne garatu da eta INRAE MaIAGE Laborategia eta PESV Landare Osasuneko Zaintza Plataformaren VSI taldearen arteko ahalegina da. Gure ikerketan funtsezkoa da VSI taldeak eskuz etiketatutako datu-multzo bat, Internet-en iturrietatik ateratako txostenez osatua. Datu-multzo anitz eta eleaniztun honi aurreprozesamendu sakona egin zitzaion, zarata kentzeko metodoak aplikatuz, errore-mezuak kentzeko eta scrapping akatsak eta anotazioen desadostasunak zuzentzeko. Testu sailkapenerako hainbat BERT eredu mota erabili ditugu, gure datu multzora egokitutako fine-tuning-en eta PET-en oinarritutako metodoaren bidez. Sailkatzaileen entrenamendu anitz egin ondoren, errendimendurik handiena duten ereduak aukeratu ditugu. Lan honen ondorioz lortutako eredu eraginkorrenak hedatzea ekarriko du, VSI adituei beren jarraipen-misioan laguntzeko prest.es_ES
dc.language.isoenges_ES
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subjectdocument classificationes_ES
dc.subjectpant health surveillance
dc.subjectAI for agriculture
dc.subjectNLP for agriculture
dc.titleNLP Meets Agronomy: Document Classification for Plant Health Surveillancees_ES
dc.typeinfo:eu-repo/semantics/masterThesis
dc.date.updated2023-09-11T13:08:13Z
dc.language.rfc3066es
dc.rights.holderEsta obra está sujeta a una licencia CC: Reconocimiento-NoComercial-CompartirIgual CC BY-NC-SA
dc.contributor.degreeMáster Universitario Erasmus Mundus en Tecnologías del Lenguaje y la Comunicación (LCT)
dc.contributor.degreeHizkuntzaren eta Komunikazioaren Teknologiak Erasmus Mundus Unibertsitate Masterra (LCT)
dc.contributor.degreeErasmus Mundus Master in Language and Communication Technologies (LCT)
dc.identifier.gaurregister136031-1144081-11es_ES
dc.identifier.gaurassign154484-1144081es_ES


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Esta obra está sujeta a una licencia CC: Reconocimiento-NoComercial-CompartirIgual CC BY-NC-SA
Except where otherwise noted, this item's license is described as Esta obra está sujeta a una licencia CC: Reconocimiento-NoComercial-CompartirIgual CC BY-NC-SA