Evaluación de un sistema de Machine Listening para la clasificación de sonidos urbanos
View/ Open
Date
2020-10-19Author
González Gorostiaga, Peio
Metadata
Show full item recordAbstract
Las técnicas de Deep Learning o aprendizaje profundo cada vez se aplican más al mundo real, y están en continuo desarrollo en busca de nuevas utilidades. Son muy conocidas las técnicas utilizadas para la clasificación de imágenes basadas de redes neuronales convolucionales, pero no tanto para la clasificación acústica. El grupo de investigación AHOLAB ha desarrollado un modelo convolucional capaz de detectar y clasificar los eventos sonoros de un automóvil con el fin de alertar de posibles averías en él. AHOLAB tenía el deseo de ampliar las funcionalidades de su red neuronal y extenderla a nuevos campos de uso. Es por ello por lo que mediante este trabajo se ha reproducido la arquitectura desarrollada por el grupo de investigación y se ha aplicado a la clasificación de eventos urbanos. Para lograr el objetivo, durante este trabajo se han ido adecuando los hiperparámetros del modelo convolucional para que tenga la capacidad de clasificar eventos sonoros detectados en cualquier punto de una ciudad. Todo esto se ha realizado a la vez que se ha ido preparando una arquitectura similar para presentarla a un concurso llamado DCASE en el cual también se debían clasificar sonidos urbanos. Gracias al material ofrecido por la organización del concurso se ha podido formar una gran base de datos con la que alimentar y entrenar la red neuronal y se ha podido evaluar hasta qué punto de precisa puede llegar a ser. Deep Learning edo ikaskuntza sakoneko teknikak gero eta gehiago aplikatzen dira mundu errealean, eta etengabe garatzen ari dira erabilera berrien bila. Oso ezagunak dira sare neuronal konboluzionaletan oinarritutako irudiak sailkatzeko erabiltzen diren teknikak, baina ez hainbeste sailkapen akustikorako. AHOLAB ikerketa-taldeak auto baten soinu-gertaerak detektatzeko eta sailkatzeko gai den eredu konboluzional bat garatu du, automobilak izan ditzakeen matxuren berri emateko. AHOLAB bere sare neuronalaren funtzionalitateak zabaldu eta erabilera eremu berrietara hedatzeko nahia zuen. Horregatik, ikerketa-taldeak garatutako arkitektura erreproduzitu da lan honen bidez, eta hiri-ekitaldien sailkapenari aplikatu zaio. Helburu hori lortzeko, lan honetan zehar konboluzio-ereduaren hiperparametroak egokitu dira, hiriguneetan antzemandako soinu-gertaerak sailkatzeko gaitasuna izan dezan. Guzti hau, DCASE izeneko lehiaketa batera aurkezteko antzeko arkitektura bat prestatuz joan da, non hiriko soinuak ere sailkatu behar ziren. Lehiaketaren antolatzaileek eskainitako materialari esker, sare neuronala elikatzeko eta entrenatzeko datu-base handi bat osatu ahal izan da, eta sistema zenbaterainokoa izan daitekeen ebaluatu ahal izan da The techniques of Deep Learning are increasingly applied to the real world and are in continuous development in search of new uses. The techniques used for the classification of images based on convolutional neural networks are well known, but not so much for acoustic classification. The AHOLAB research group has developed a convolutional model capable of detecting and classifying the sound events of a car in order to warn of possible breakdowns in it. AHOLAB wanted to extend the functionalities of its neural network and extend it to new fields of use. That is why through this work the architecture developed by the research group has been reproduced and applied to the classification of urban events. To achieve this objective, during this work the hyperparameters of the convolutional model have been adapted so that it has the capacity to classify sound events detected in urban places. All this has been done at the same time that a similar architecture has been prepared to be presented to a contest called DCASE in which urban sounds had to be classified as well. Thanks to the material offered by the organization of the competition, a large database has been formed with which to feed and train the neural network and it has been possible to evaluate how accurate it can be.