Blue chip: Principales aportaciones de la visión artificial

viernes, 16 de octubre de 2020

Principales aportaciones de la visión artificial

La Inteligencia Artificial no es en realidad una disciplina monolítica sino que agrupa una gran variedad de técnicas, algoritmos y soluciones.

Tampoco las diferentes ramas que componen la inteligencia artificial actual son monolíticas, sino que, de nuevo, presentan una amalgama de tecnologías y soluciones.

Una de estas ramas, una de las más relevantes hoy en día y ya desde hace muchos años, es la visión artificial ('computer vision'), un área donde se incluyen temas tan diversos como el reconocimiento facial o incluso en algunos casos el OCR ('Optical Character Recognition').

La gama de actividades y soluciones es muy amplia y, por eso, me ha interesado el listado que nos ofrece el libro 'Modern Deep Learning and Advanced Computer Vision' de Thomas Binford, Jagadeesh Kumar, J, Ruby, J. Lepika, J. Tisa y J. Nedumaan en uno de sus primeros capítulos. En él se detiene a proporcionar un listado de las principales aportaciones hasta la fecha de la visión artificial. Ésta es la lista que nos ofrece:

Clasificación de imágenes: quizá una de las soluciones más conocidas: asignar una imagen a alguna categoría. También lo podemos encontrar denominado como 'clasificación de objetos' o 'reconocimiento de imágenes'.

Clasificación de imágenes con localización: Además de la clasificación, en este caso se añade la localización de la imagen mediante el dibujo de un recuadro que la rodee.

Detección de objetos: En realidad, una ampliación del caso anterior pero cuando en la misma imagen existen muchos objetos que es preciso identificar de manera diferenciada.

Segmentación de objetos: Parecido a la localización pero, en este caso, no se trata de rodear a un objeto con un rectángulo sino de identificar exactamente los pixeles que pertenecen a ese objeto.

Transferencia de estilo: Una aplicación muy curiosa que actúa a modo de filtro o transformación y que transfiere a una imagen un estilo determinado (colores, estilo artístico, etc).

Coloreado de imágenes: convierte una imagen en blanco y negro, o mejor dicho, en escala de grises, a una imagen en color siendo, de nuevo, una forma de filtro o transformación.

Reconstrucción de imágenes: Reconstrucción, rellenado o pintado de partes corruptas de una imagen.

Super resolución de imágenes: Es la generación, a partir de una imagen dada, de otra similar pero con mayor resolución. Con frecuencia comparte modelos con el caso anterior.

Síntesis de imágenes: Un campo en fuerte desarrollo en que se genera una imagen modificada según un objetivo o, incluso, una imagen completamente nueva.

Como se puede observar, los autores se sitúan en un nivel intermedio. No entran realmente en los modelos y algoritmos, el detalle más tecnológico y prolijo, pero tampoco se enfocan en aplicaciones finales. Lo que nos ofrecen es una gama de soluciones genéricas (que se apoyarán en los algoritmos que corresponda) y que luego encuentran aplicaciones a medida que se transfieren a casos de uso específicos.

Una clasificación que, aunque quizá no sea completa o quizá otros autores plantearían de forma diferente, nos ayudan a poner un poco de orden en esa amplia gama de opciones y posibilidades que integran el fértil campo de la visión artificial.