Blue chip: Algunas estrategias genéricas para la explicabilidad de la inteligencia artificial

lunes, 22 de marzo de 2021

Algunas estrategias genéricas para la explicabilidad de la inteligencia artificial

Conseguir proporcionar unas explicaciones comprensibles por humanos a cómo ciertos algoritmos de la inteligencia artificial llegan a sus conclusiones es el objetivo de la explicabilidad de la inteligencia artificial o de la inteligencia artificial explicable.

Ese objetivo de la explicabilidad es, a la vez, particularmente difícil y particularmente interesante en el caso de los algoritmos implementados como redes neuronales, como deep learning.

Es especialmente relevante porque ese tipo de redes son las 'responsables' de muchos de los éxitos recientes en inteligencia artificial y es particularmente difícil porque la estructura interna de una red neuronal y los datos que maneja están muy lejos de las estructuras simbólicas del lenguaje y forma de razonar consciente, o al menos de entender, de los humanos que nos gustaría obtener como resultado de esa explicabilidad.

Sin embargo, el ingenio humano no parece tener límite y, para una tarea que, en primera impresión, parece acercarse a la imposibilidad, ya existen enfoques capaces de obtener unos ciertos resultados. Y se trata, por cierto, de unos enfoques tan algorítmicos como los mismos algoritmos a los que intentan dar una explicación.

Se trata de un campo en investigación y exploración donde puede haber muchas ideas, muchos pilotos y muchas técnicas y probablemente vayan inicialmente creciendo y diversificando en técnicas y algoritmos para luego ir consolidando en lo que obtienen mejores resultados. Pero como una aproximación, quisiera recoger en este post cuatro grandes líneas de trabajo que se explican en el libro 'Explainable AI: Interpreting, Explaining and Visualizing Deep Learning' editado por Wojciech Samek, Grégoire Montavon, Andrea Vedaldi, Lars Kai Hansen y Klaus-Robert Müller. Los propios autores reconocen que no se trata de un censo exhaustivo, pero aún así, creo que resulta interesante. Estos son los cuatro enfoques:

Explicación mediante sustitutos ('surrogates'): Se aplica en el caso de modelos complejos y consiste en aproximar el modelo de manera local mediante una función sustituta simple y èrfectamente interpretable. Un caso conocido de este enfoque es LIME (Local Interpretable Model-agnostic Explanations). En este método, se muestrea en la red en la vecindad de una entrada de interés obteniendo los valores en esos puntos y con eso intenta encajar la función sustituto que mejor se aproxima. Tiene la ventaja de ser un método agnóstico al modelo subyacente (el que se quiere explicar) y como contrapartida sufre de un alto coste computacional.

Explicación mediante perturbaciones locales: En este caso se analiza la respuesta del mode a cambios locales. A su vez, se subdivide en métodos que se basan en el gradiente de la función de interés, como es el caso del análisis de sensibilidad ('sensitivity analysis') y otros que se basan en perturbaciones, como el Prediction Difference Analysis (PDA)

Enfoques basados en propagación: Si los métodos anteriores eran agnósticos al modelo que explicaban, los modelos de propagación se apoyan en la estructura interna para el que intentan proporcionar explicabilidad. Un framework importante en estae tipo es LRP (Layer-wise Relevance Propagation) que es aplicable a diferentes arquitecturas de redes, incluyendo las redes recurrentes LSTM (Long Sohrt-Term Memory). LRP explica decisiones individuales mediante una propagación inversa desde la predicción en la salida hasta las entradas usando unas reglas de redistribución locales. Lo que intenta hallar LRP es, ante una decisión dada, cuánto contribuyó una característica de entrada a que se adoptase esa decisión. Otros casos de este tipo de técnicas son Deconvolution y Guided Backpropagation. En estos dos casos, lo que se intenta es identificar patrones en el espacio de entrada que se relacionan con la salida de la red. Y aún hay más opciones dentro de este enfoque.

Meta-explicaciones: Va más allá de la explicaciones individuales hacia una una 'meta-explicación' del comportamiento de todo el modelo para encontrar patrones del comportamiento de un clasificador. Un método dentro de este ámbito es SpRAy (Spectral Relevance Analysis) que busca ese modelo general mediante el 'clustering' de mapas de calor, pero existen otros enfoques,

Cada uno de los enfoques mencionados puede incluir varios métodos y cada método se merece, o precisa, una detallada y compleja explicación para conocerlos perfectamente. No obstante, el propósito de este post, es sólo dar una primera estructuración y apuntar algunos nombres de métodos reconocidos, como soporte para un más amplio trabajo posterior.