Broadening the Horizon of Adversarial Attacks in Deep Learning
Laburpena
Los modelos de Aprendizaje Automático como las Redes Neuronales Profundas son actualmente el núcleo de una amplia gama de tecnologías aplicadas en tareas críticas, como el reconocimiento facial o la conducción autónoma, en las que tanto la capacidad predictiva como la fiabilidad son requisitos fundamentales. Sin embargo, estos modelos pueden ser fácilmente engañados por inputs manipulados deforma imperceptible para el ser humano, denominados ejemplos adversos (adversarial examples), lo que implica una brecha de seguridad que puede ser explotada por un atacante con fines ilícitos. Dado que estas vulnerabilidades afectan directamente a la integridad y fiabilidad de múltiples sistemas que,progresivamente, están siendo desplegados en aplicaciones del mundo real, es crucial determinar el alcance de dichas vulnerabilidades para poder garantizar así un uso más responsable, informado y seguro de esos sistemas. Por estos motivos, esta tesis doctoral tiene como objetivo principal investigar nuevas nociones de ataques adversos y vulnerabilidades en las Redes Neuronales Profundas. Como resultado de esta investigación, a lo largo de esta tesis se exponen nuevos paradigmas de ataque que exceden o amplían las capacidades de los métodos actualmente disponibles en la literatura, ya que son capaces de alcanzar objetivos más generales, complejos o ambiciosos. Al mismo tiempo, se exponen nuevas brechas de seguridad en casos de uso y escenarios en los que las consecuencias de los ataques adversos no habían sido investigadas con anterioridad. Nuestro trabajo también arroja luz sobre diferentes propiedades de estos modelos que los hacen más vulnerables a los ataques adversos, contribuyendo a una mejor comprensión de estos fenómenos.