Blue chip: Los tres niveles en visión artificial

lunes, 12 de octubre de 2020

Los tres niveles en visión artificial

Algunos de los artículos que publico en este blog, puede que los menos, son artículos de opinión pura, donde doy mi visión particular sobre algún tema. Otros, probablemente la mayoría, son artículos de comentario donde, apoyándome en algún texto o cita, aporto algún tipo de valoración o consideración. Y, finalmente, existen artículos de naturaleza descriptiva donde simplemente anoto y ordeno alguna píldora de conocimiento que me ha interesado especialmente o que me parece ayuda a estructurar algún conocimiento de mi interés, y espero que de mis lectores.

Este último es el caso del artículo de hoy. Llevo una larga temporada en que gran parte de mi lectura e investigación tiene que ver con la inteligencia artificial y la robótica en diferentes aspectos. En esa línea, recientemente, y queriendo profundizar en concreto en el campo de la visión artificial he leído el libro 'Modern Deep Learning and Advanced Computer Vision' de Thomas Binford, Jagadeesh Kumar, J, Ruby, J. Lepika, J. Tisa y J. Nedumaan.

En el primer capítulo, los autores nos hablan de los tres niveles en que se suele descomponer la disciplina de la visión artificial (bajo, medio y alto), unos niveles que parecen apoyarse en las teorías del neurocientífico David Marr. Es esta descomposición en niveles lo que hoy quería recoger brevemente en este artículo.

Estos son los tres niveles:

La visión de bajo nivel ('low-level vison') consiste en un preprocesamiento de la imagen y casi no puede considerarse todavía cono una verdadera visión. En este nivel, se realizan, por ejemplo, filtrados, detección de bordes y esquinas o morfología.

La visión de nivel intermedio ('mid-level vision'), por su parte, trabaja con la información recibida para organizarla de alguna manera en objetos y superficies. Según los autores, dos son los elementos principales que se tienen que inferir en este nivel: la geometría y el movimiento. Así, algunos problemas que se tratan en este nivel son la segmentación de objetos ('object segmentation') o el trazado visual de objetos ('visual obtect tracking').

Por último, la visión de alto nivel ('high-level vision') se adentra en la semántica de la imagen, su verdadero entendimiento y concentra problemas como el reconocimiento de objetos ('object recognition') o el entendimiento de escenas ('scene understanding').

La fuente en que me baso, el libro citado, no proporciona en mi opinión, una definición demasiado nítida de lo que significa cada nivel, quizá porque se trate de un esquema conceptual y su traducción a algoritmos o técnicas concretas no sea del todo evidente, pero sí permite hacerse una primera idea de lo que son los niveles de procesamiento y estar preparados para cuando nos topemos con esta distinción en niveles, que aparece aquí y allá en la literatura sobre visión artificial,