mathematical models, by their nature, are based on the past, and on the assumtions that patterns will repeat.
Simplemente es eso: entrenamos a los algoritmos con datos del pasado suponiendo que eso nos vale para el futuro. Parece lógico ¿de qué datos vamos a disponer si no son datos del pasado? Así que tomamos datos de una realidad pretérita y los usamos para que entrenar el algoritmo y con la idea de que éste detecte los patrones que subyacen en ellos.
¿Qué tiene eso de malo?
A priori nada. Nada siempre que ese pasado se vaya a mantener en el futuro. O aún más, siempre que deseemos que ese pasado se mantenga en el futuro.
Si entrenamos un algoritmo de visión artificial que reconoce dígitos de la matrícula de un coche, no tenemos ningún problema con utilizar datos del pasado. Por un lado, podemos estar razonablemente seguros de que los dígitos de una matrícula van a tener aproximadamente la misma forma, o muy similar, en el pasado que la que tendrán en el futuro. Por otro lado, no hay nada que nos incomode, especialmente en el plano moral, con que esos dígitos sigan teniendo la misma forma en el futuro.
Pero hay otras situaciones en que esto no es así. En que el futuro no es como el pasado o no queremos que sea como el pasado. En estos casos, entrenar con datos del pasado nos puede traer, al menos, tres problemas: sesgo, obsolescencia profecía autocumplida.
Sesgo
El problema surge cuando el futuro no tiene por qué ser igual que el pasado, es más, cuando por motivos en muchas ocasiones morales, preferimos que el futuro sea diferente del pasado.
¿Qué quiere decir eso? Muy sencillo: veamos el tan traído y llevado caso del sesgo de género en la selección de personal o en el ascenso a cargos directivos. En ese caso, que ya ha sucedido por cierto, hablamos de un modelo matemático pensado para ayudar a un departamento de recursos humanos en la selección de lo(a)s mejores candidato(a)s para un puesto, ya sea un puesto de entrada, o mejor, para una promoción. Se alimenta a ese modelo con datos de procesos de selección del pasado para que deduzca los mejores criterios subyacentes de selección.
El problema es que los criterios del pasado no son 'los mejores'. Todos sabemos que, por desgracia, la mujer ha estado en desventaja en el ámbito laboral, en el pasado. Puede que también en el presente, pero desde luego en el pasado. Es decir, que si nos basamos en datos del pasado, y no hacemos nada más, vamos a trasladar al algoritmo esos criterios que dejaban en desventaja a la mujer. Es decir, el algoritmo estará sesgado en su contra.
Seamos claros: no es 'culpa' del algoritmo, que en realidad puede ser matemáticamente perfecto. No es tampoco un defecto o sesgo moral del desarrollador que lo ha implementado o del científico de datos que lo ha entrenado, que pueden incluso ser feministas, si se quiere. Y no es, por supuesto, que el algoritmo tenga algún tipo de 'intención oculta'. Los algoritmos no tienen intenciones propias. Ni siquiera es, necesariamente que hayamos hecho un mal muestreo de datos (que, en ocasiones también es fuente de sesgos). Es, simplemente, que el pasado era así pero ahora queremos un futuro diferente del pasado, un futuro que no perjudique laboralmente a la mujer, por lo que parece que un algoritmo entrenado con datos del pasado, sin más, no nos va a dar las mejores recomendaciones para el futuro.
Obsolescencia
Otro problema, quizá de bastante más sencilla solución, es el de la obsolescencia.
Entrenamos el modelo con datos del pasado. Y vamos a suponer que lo hemos hecho bien y sin sesgos. Perfecto. Así que lo usamos...
.Y lo seguimos usando, y lo seguimos usando...
El problema de la obsolescencia es que, en ocasiones la realidad va cambiando por lo que un modelo matemático, que funcionó bien durante un tiempo puede no ser ya válido y precisar de 're-entrenamiento', so pena de dejar de actuar correctamente.
Esto realmente, parece resoluble con medidas metodológicas y de buenas prácticas.
Profecía de autocumplimiento
Quizá, la sombra del pasado más elusiva, más difícil de detectar, y puede que más peligrosa es el de convertirse en profecía de auto-cumplimiento, algo que la autora citada, Cathy O'Neil, muestra con varios ejemplos.
En este caso, un modelo que se basa en datos del pasado y sesgado, proyecta ese sesgo hacía el futuro, reforzándolo o incluso agravándolo, en la medida que tomamos decisiones y actuamos en el mundo basado en lo que dice el algoritmo.
Volvamos al caso del sesgo de género.
Hemos hecho un modelo que presenta sesgo de género. Pero no nos damos cuenta. Así que lo utilizamos en nuestros procesos de selección / promoción. Y como tiene sesgo de género va a favorecer las contrataciones / promociones de varones.
Eso sí, somos muy conscientes del problema de la obsolescencia. Así que reentrenamos el modelo cada cierto tiempo. Pero, en lo que a sesgo de género se refiere, da exactamente igual que lo reentrenemos. Incluso puede ser peor. Puesto que, como en el mundo real seguimos seleccionado con sesgo de género, al realimentar al modelo con las últimas selecciones / promociones, haremos que se re-afirme, incluso puede que profundice aún más, en ese sesgo.
En este caso, no se trata ya únicamente de que el modelo no nos proporcione la mejor sugerencia es que, además, las sombras del pasado se proyectan hacia el futuro manteniendo o agravando un problema del pasado.
Conclusiones
De todo el razonamiento anterior, que entiendo bastante conocido por aquellos que trabajan en machine learning y en ética de la inteligencia artificial, quisiera destacar algo que a veces en las fantasías y discursos ambiguos se pierde: muchos de los sesgos, muchos de los comportamientos inadecuados de los algoritmos son eso, meras sombras del pasado. Normalmente no hay mala intención por parte de las personas que los diseñan y entrenan. Es más, muchas veces están hechos con la mejor de las intenciones. Y por supuesto, no hay intencionalidad en absoluto por parte del algoritmo.
Se trata de problemáticas a veces sutiles, elusivas y no siempre fáciles de detectar,
Eso, desde un punto de vista moral y de culpabilidad nos alivia bastante (no hay mala intención la mayor parte de las veces) pero quizá, curiosamente, complique algo la problemática desde un punto de vista técnico para evitar, detectar y enmendar esas situaciones sin perder por el camino toda la indudable potencia y aportación del machine learning.