NLP Meets Agronomy: Document Classification for Plant Health Surveillance
Ikusi/ Ireki
Data
2024-09-25Egilea
Vasquez Reina, Luis Antonio
Laburpena
[EN] In the field of Plant Health Epidemiological Surveillance, accurately analyzing written reports of events affecting agriculture is crucial. This master’s thesis in Natural Language Processing leverages the power of Automatic Text Classification, specifically focusing on its application in monitoring plant health. Conducted as part of the TIERS-ESV project, this work is a joint effort between the Bibliome team at the INRAE MaIAGE Laboratory and the VSI team at the PESV Plant Health Surveillance Platform. Central to our research is a dataset curated and annotated by the VSI team, consisting of reports extracted from online sources. This diverse, multilingual dataset was subjected to thorough preprocessing, applying methods for noise elimination, error message removal, and addressing scrapping errors and annotation discrepancies. We employed various BERT models for Text Classification, tailored to our dataset via Fine-tuning and a pattern-based training method. After extensive classifier training, we selected the top-performing models. The efficacy of the models obtained as a result of this work will result in the deployment of BERT-based classifiers, poised to assist the VSI experts in their monitoring mission. [ES] En el área de la Vigilancia Epidemiológica de la Salud de las Plantas, el análisis preciso de reportes escritos sobre eventos que afectan a la agricultura es crucial. Este Trabajo de Fin de Máster en Análisis y Procesamiento del Lenguaje aprovecha las capacidades de la Clasificación Automática de Textos, específicamente, enfocándose en su aplicación al monitoreo la salud de las plantas. Realizado en el marco del proyecto TIERS-ESV, este trabajo es el resultado de una colaboración entre el equipo Bibliome de la unidad MaIAGE del laboratorio INRAE y el equipo VSI de la Plataforma de Vigilancia de la Salud de las Plantas PESV. Nuestra investigación se apoya en un conjunto de datos curados y anotados por el equipo VSI, que consiste en reportes extraídos de fuentes recopiladas en línea. Este conjunto diverso y multilingüe de datos fue sometido a un preprocesamiento exhaustivo, aplicando métodos para la eliminación de ruido, la supresión de mensajes de error y el tratamiento de errores de recopilación y discrepancias en las anotaciones. Utilizamos diversos modelos BERT para la Clasificación de Textos, adaptados a nuestro conjunto de datos mediante Fine-tuning y un método de entrenamiento basado en plantillas. Después de un entrenamiento intensivo de los clasificadores, seleccionamos los modelos de mejor rendimiento. La eficacia de los modelos obtenidos como resultado de este trabajo conducirá a la implementación de clasificadores basados en BERT, preparados para asistir a los expertos del equipo VSI en su misión de monitoreo. [EU ]Landare Osasunaren Zaintza Epidemiologikoaren arloan, funtsezkoa da nekazaritzari eragiten dioten gertaeren idatzizko txostenak zehaztasunez aztertzea. Hizkuntza Prozesamendurako master-tesi honek testu sailkapenaren ahalmena aprobetxatzen du, bereziki landareen osasuna kontrolatzeko duen aplikazioan zentratuz. Masterreko tesi hau TIERS-ESV proiektuaren barne garatu da eta INRAE MaIAGE Laborategia eta PESV Landare Osasuneko Zaintza Plataformaren VSI taldearen arteko ahalegina da. Gure ikerketan funtsezkoa da VSI taldeak eskuz etiketatutako datu-multzo bat, Internet-en iturrietatik ateratako txostenez osatua. Datu-multzo anitz eta eleaniztun honi aurreprozesamendu sakona egin zitzaion, zarata kentzeko metodoak aplikatuz, errore-mezuak kentzeko eta scrapping akatsak eta anotazioen desadostasunak zuzentzeko. Testu sailkapenerako hainbat BERT eredu mota erabili ditugu, gure datu multzora egokitutako fine-tuning-en eta PET-en oinarritutako metodoaren bidez. Sailkatzaileen entrenamendu anitz egin ondoren, errendimendurik handiena duten ereduak aukeratu ditugu. Lan honen ondorioz lortutako eredu eraginkorrenak hedatzea ekarriko du, VSI adituei beren jarraipen-misioan laguntzeko prest.