Mejora de la efectividad de la clasificación en la plataforma WEKA en base al uso de métodos de remuestreo sobre la distribución de clases óptima
Ver/
Fecha
2022-12-23Autor
Arostegui Carrasco, Asier
Metadatos
Mostrar el registro completo del ítemResumen
Los problemas de clasificación de bases de datos desbalanceadas constituyen un paradigma específico dentro del Machine Learning que ha sido ampliamente estudiado en los últimos años y que puede ser abordado desde distintos puntos de vista. Hay distintos tipos de aproximaciones a este problema: las más comúnmente encontradas en literatura son aquellas de tipo algorítmico, las de selección de atributos (features) y las de tratamiento de datos o remuestreo. La ventaja de las aproximaciones de tratamiento de datos es que son versátiles y pueden aplicarse a cualquier tipo de algoritmo y se basan en la aplicación de un remuestreo de las instancias disponibles para tratar de balancear la clase minoritaria, con una aproximación clásica de rebalanceo al 50%.
Este trabajo plantea un doble objetivo: por un lado, extender análisis empíricos previos que muestran que la distribución óptima no tiene por qué ser la del 50% que plantearon las primeras hipótesis y que dependerá del tipo de problema o conjunto de datos a estudiar, del tipo de clasificador elegido, del tipo de algoritmo de remuestreo aplicado y de la métrica que se defina para la evaluación del clasificador, lo que se refiere típicamente como dependencia del contexto. Del análisis de resultados, se comprobará si alguna de las variables de contexto obtiene un mejor desempeño que otra sobre el universo de análisis considerado.
Por otro lado, se pretende poner a disposición de la comunidad un módulo sobre la plataforma WEKA que permita, no sólo automatizar el procedimiento para replicar el estudio, sino poder aplicar esta implementación de manera general para encontrar una distribución óptima para un contexto determinado, es decir, para un problema de clasificación, un método de remuestreo, un algoritmo de clasificación y una métrica de evaluación concreta que pueda definir el usuario.