Análisis e implementación de modelos de aprendizaje máquina en tiempo real sensibles a derivas de concepto en plataformas Big Data
View/ Open
Date
2017-07Author
Hidalgo García, Jaime
Metadata
Show full item recordAbstract
[ES]Este proyecto consiste en el diseño, implementación y despliegue de un software que pueda procesar muestras de datos generadas por dispositivos en tiempo real, con objeto de elaborar predicciones basadas en algoritmos de aprendizaje de máquina. Estas muestras responden a un problema de clasificación y están sujetas a un fenómeno denominado deriva de concepto, lo que implica que el patrón que se sigue para clasificarlas cambia a lo largo del tiempo. El software de aprendizaje debe ser capaz de tener en cuenta dicho cambio, detectándolo y adaptándose al mismo. Además, el proyecto se engloba en un escenario de Big Data, donde la cantidad de información a procesar es enorme. Por ello, el programa deberá implementarse en una plataforma especializada, que pueda ejecutarse en un clúster de computación con alta escalabilidad para procesar los datos en tiempo real, aprovechando los recursos disponibles en su totalidad. [EN]This project consists of the design, implementation and deployment of software that can process data samples generated by devices in real time to elaborate predictions based on machine learning algorithms. These samples belong to a classification problem and are subject to a phenomenon called concept drift, which implies that the pattern that was learnt to classify the samples may change over time. The learning software must be able to consider such change by detecting it and adapting to it. In addition, the project is set in a Big Data scenario, where the amount of information to be processed is enormous. Therefore, the program must be implemented in a specialized platform that can be deployed in a highly scalable computing cluster, to process the data in real time using the resources available in its entirety. [EU]Hurrengo proiektua denbora errealean gailu elektronikoen bidez sortutako datu erakusgarriak prozesatu ditzakeen software-aren diseinu, inplementazio eta hedatzean datza, makina ikaskuntzako algoritmotan oinarritutako iragarpenak lantzeko helburuarekin. Erakusgai hauek klasifikazio arazo bati erantzuten diote eta deribazio kontzeptuko izendatutako fenomeno bati lotuta daude. Honen ondorioz, klasifikazioa egiteko erabiltzen den patroia aldaketak izaten ditu denbora pasa ahala. Ikaskuntza software-a aipatutako aldaketak kontuan hartzeko gai izan behar da, hau antzematen eta beren arabera egoitzen. Bestalde, proiektua Big Data jokaleku baten barne hartzen da, prozesatu beharreko informazio kantitatea egundokoa denean. Horregatik, programa berezitutako plataforma batean inplementatu beharko da, non eskalabilizazio handiko konputazio cluster batean egikaritu daiteke datuak denbora errealean prozesatzeko, erabiltzeko moduan dauden baliabide osotasuna aprobetxatuz.