Interpolación de fotogramas con Deep learning
View/ Open
Date
2019-12-19Author
Angulo Celada, Andoni
Metadata
Show full item recordAbstract
Resumen: se ha desarrollado un sistema de aprendizaje automático para el procesamiento de imágenes, aplicado a vídeos. Concretamente, su funcionalidad es la interpolación de imágenes, que consiste en generar un fotograma intermedio entre dos fotogramas contiguos. Aplicando este proceso a un vídeo entero, se duplican los fotogramas, consiguiendo un efecto de cámara lenta. Para desarrollar un sistema de este tipo, se necesita un conjunto de entrenamiento, el cual ha sido creado a partir de vídeos descargados de YouTube, cuyos fotogramas han sido extraídos y seleccionados en base a un criterio. Con estos datos, se ha entrenado el sistema, construido con una arquitectura basada en deep learning (o aprendizaje profundo); concretamente, redes neuronales convolucionales. Por último, se ha evaluado el sistema en un conjunto de datos público, comprobando la calidad de los resultados y la mejora respecto a un sistema base. laburpena: proiektu honetan irudiak prozesatzeko ikasketa automatikoko sistema bat garatu da, bideoei aplikatuta. Hain zuzen ere, irudien interpolaziorako sistema bat sortu da, elkarren ondoan dauden bi fotogrametatik tarteako fotograma sortzen duena. Prozesu hau bideo osoa bati aplikatuz, fotogramak bikoiztu egiten dira, kamera geldoaren efektua lortuz. Mota honetako sistema bat garatzeko entrenamendu-multzo bat behar da, proiektu honetan YouTubetik deskargatutako bideoetatik sortu dugu gure entrenamendu-multzoa, horretarako bideoetako fotogramak irizpide baten arabera erauzi eta aukeratu direlarik. Datu horiekin deep learning (edo ikasketa sakona) arkitektura bateko sistema bat entrenatu da; neurona-sare konoluzionalak, hain zuzen ere. Azkenik, sistema hori datu-multzo publiko batean ebaluatu da, emaitzen kalitatea eta oinarri-lerro sistema batekiko hobekuntza egiaztatuz. Abstract: this project presents the development of a machine learning system for image processing, which is applied to videos. In particular, its functionality is image interpolation, which consists of generating an intermediate frame between two contiguous frames. Applying this process to an entire video, its frames are duplicated, getting a slow-motion effect. To develop this kind of system, a training dataset is needed, which has been created from YouTube videos, whose frames have been extracted and selected based on a criterion. The system has been trained on this data, and built with a deep learning-based architecture; specifically, convolutional neural networks. Finally, the system has been evaluated on a public dataset, verifying the quality of the results and the improvement with respect to a baseline system.