Localización mediante imagen II – Entrenamiento de la base de datos para interiores

Como se ha indicado en el post anterior sobre localización mediante imagen, el primer paso consiste en configurar una base de datos con un volumen y homogeneidad adecuada de las distintas clases que queremos poder detectar. Para ello la base de datos se ha creado utilizando dos librerías OpenCV y SQLite, ambas compatibles con C++ y la última además con MATLAB . El objetivo final es la creación de la red neuronal y su posterior entrenamiento, para lo cual, como se ha comentado en el post de análisis de los distintos Frameworks orientados a trabajar con CNNs, se ha utilizado la librería de algoritmos de visión por computador VLFeat – matconvnet (MatConvNet: CNNs for MATLAB, 2015).
Debido al cálculo intensivo que requiere el entrenamiento de una CNN con grandes bases de datos, ha sido necesario realizar el entrenamiento con una tarjeta gráfica perteneciente al clúster Hermes de la Universidad de Zaragoza. En total se han realizado 32 iteraciones para el proceso de entrenamiento, con un consumo total en el cluster de computación de 224 horas.
En las siguientes figuras podemos ver la forma que han adquirido los filtros tras el entrenamiento, observando que la búsqueda de características se produce tanto en forma como en los colores de la imagen.

En la siguiente figura podemos ver la adquisición de las características de una imagen ejemplo con los filtros de la red entrada y la predicción del sistema.

Para testear la red neuronal entrenada se hace uso de una pequeña base de datos utilizada para reconocimiento de escenas en interiores (Quattoni & Torralba, 2009). De ella se selecciona únicamente las clases para las cuales ha sido entrenada la red, en caso de elegir otras que no pertenezcan, el sistema intentará predecir cuál será la más probable.
El resultado del entrenamiento se puede comprobar en las siguientes figuras.

Los resultados obtenidos han sido muy prometedores. Observamos probabilidades de éxito de hasta un 70 % , mientras la cámara se mueve de forma natural por diversas dependencias.

TAMA

I3A en Walqa

Localización mediante imagen II – Entrenamiento de la base de datos para interiores

Leave a Reply Cancel reply