miércoles, 20 de octubre de 2021

La equívoca relación de inteligencia artificial y datos: cinco mitos comunes

En el post de hace un par de días, titulado 'Privacidad versus donación de datos, un equilibrio ético' mencionaba de pasada una presunta íntima relación entre inteligencia artificial y datos, una relación que calificaba de equívoca.

En realidad esa relación no es equívoca en sí misma. Lo que es equívoca es la comunicación al respecto que con frecuencia se puede observar en artículos, blogs, tuits, ponencias etc. 

Esa relación equívoca, esa comunicación equívoca en realidad, se sustancia en una casi identificación (a veces sin el casi) de tratamiento de datos, big data e inteligencia artificial, como si fuesen lo mismo, como si una disciplina , tecnología o actividad, no pudiese existir sin la otra.

A pesar de la frecuencia de esa identificación, es profundamente incorrecta. Y no sé si el origen de esa confusión está en la pura ignorancia, en la retransmisión acrítica de ideas de terceros o, en algún caso, incluso el interés por confundir las cosas, por perpetuar un estado de comprensión superficial e inexacto de la realidad tecnológica.

Para que quede claro: inteligencia artificial es una cosa, big data otra y el tratamiento de datos otra y, aunque pueden converger (y converjan, de hecho) en muchos usos y aplicaciones, no son lo mismo y pueden existir cada una de las tres sin la concurrencia de las otras dos.

Una explicación completa puede ser muy larga, pero sí me voy a concentrar en intentar desmontar algunos mitos, o al menos dar pistas para hacerlo tras reflexión y estudio posteriores por parte del lector.


Mito 1: la inteligencia artificial necesita datos


Con frecuencia se traslada la imagen de que los algoritmos de inteligencia artificial necesitan datos, necesitan muchos datos. Y los necesitan de forma obligatoria e imperiosa. 

Bueno, esto no es cierto del todo. Sólo a veces.

La inteligencia artificial acoge en su seno un conjunto muy amplio y muy variado de algoritmos. Insisto, muy amplio y muy variado. Poco tiene que ver un algoritmo de búsqueda, con uno de planificación. con una red neuronal, con un K-means, con un SVF. Muy poco realmente. 

Y si, algunos de estos algoritmos, quizá los más exitosos y populares de los últimos años, necesitan datos, muchos datos para ser entrenados. Pero existen otros algoritmos, perfectamente útiles dentro del campo de la inteligencia artificial, que no son especialmente demandantes de datos. En general, y tampoco conviene tomar esto de forma absoluta, precisan de datos los algoritmos que se incluyen dentro del campo del machine learning. Pero, otros algoritmos, por ejemplo los que caen dentro de la inteligencia artificial simbólica, o de la lógica, no precisan especialmente de datos.

Más aún, aquellos algoritmos que precisan de datos, los necesitan normalmente durante su etapa de entrenamiento, pero no una vez ya están en producción. Si nosotros, como empresa final, usamos un algoritmo entrenado por, digamos, Google, Microsoft, IBM o Amazon, por ejemplo en el campo del procesamiento del lenguaje natural o del OCR, un algoritmo ya entrenado insisto, nosotros no necesitamos especialmente datos, salvo que lo queramos re-entrenar al algoritmo cosa que con frecuencia no tendría mucho sentido.  Si lo usamos tal cual es, no necesitamos datos. Lo usamos y ya está,

Así que si, la inteligencia artificial a veces necesita datos, a veces muchos o muchísimos datos. Pero no siempre. Y no siempre dependiendo del tipo de algoritmo y en que fase de su ciclo de vida lo usemos. No hay, por tanto, identificación de inteligencia artificial con necesidad de datos.


Mito 2: la inteligencia artificial necesita muchos datos. Cuantos más, mejor.


Aparte del hecho de precisar datos, se suele hablar de cantidades gigantescas de datos. De nuevo, esto necesita matizarse.

Sí que es cierto que aquellos algoritmos que necesitan datos en su entrenamiento, suelen necesitar muchísimos datos. Entrenar un algoritmo 'fino' de visión artificial o de procesamiento de lenguaje natural puede necesitar cantidades ingentes de datos. Eso es cierto.

Pero hay otros que son más frugales. Un K-means, o una red bayesiana, por ejemplo, no precisan necesariamente de muchos datos. Un K-means puede descubrir patrones con un número limitado de datos, aunque, quizá, a más datos pueda ser más fino en su segmentación.

Más importante que eso, en realidad la necesidad de muchos datos no es una virtud, sino un lastre para aquellos algoritmos de inteligencia artificial que sí los precisan. Falta mucho por investigar y conseguir al respecto, pero algunos de los objetivos de áreas de trabajo como el transfer learning o el aprendizaje por refuerzo buscan, entre otras cosas, ser mas económicos en datos, disminuir esa dependencia de los datos, sobre todo de los grandes volúmenes de datos.


Mito 3: Realizar análisis de datos es inteligencia artificial


No. No siempre. No la mayoría de las veces.

En cualquier empresa, se puede y se debería hacer análisis de datos. Se debería recoger información de sus ERP, sus CRM, sus BPMS, o cualesquiera otros sistemas y, ya sea directamente en esos sistemas o sobre  un repositorio que reúna los datos de diversas fuentes (un ODS, un datamart, un datalake), o incluso, mediante visualizadores de datos como PowerBI o Tableau que actuan de manera directa sobre repositorios originales, obtener indicadores, tendencias y, eventualmente, reunirlos en cuadros de mando o informes.

Pero hacer eso no significa que estemos haciendo inteligencia artificial. Obtener un indicador (por ejemplo, el tiempo medio de proceso) mediante una 'query' más o menos compleja sobre una base de datos no es hacer inteligencia artificial. Hacer predicciones basados en simples valores medios del pasado, no es inteligencia artificial. Es un uso razonable y aconsejable de los datos, pero no es inteligencia artificial.

Lo sería si sobre esos datos, aplicamos, por ejemplo, un algoritmo de machine learning para hacer segmentación descubriendo patrones no evidentes subyacentes a los datos. Entonces sí. 

Es decir, sólo algunas explotaciones y análisis avanzados de los datos son inteligencia artificial. 

Pero otras cosas, otras consultas e indicadores, son business intelligence o incluso, ni eso, meros indicadores e informes básicos. Son muy útiles, Son muy aconsejables. Se deberían hacer si o si. Pero no son inteligencia artificial.


Mito 4: La inteligencia artificial es lo mismo que la analítica de datos


Igual que, como veíamos en el punto anterior, gran parte de la analítica que se realiza sobre datos, una analítica sencilla que casi no merece ni ese nombre, no es inteligencia artificial, tampoco se puede identificar inteligencia artificial con analítica de datos.

¿Por qué lo digo?

Pues porque leyendo o escuchando a ciertos autores, parece como si se identificase analítica de datos con inteligencia artificial, como si lo único que se pudiese hacer con inteligencia artificial fuese la analítica de datos.

En absoluto es así.

La analítica de datos es un área de aplicación de la inteligencia artificial, muy útil, muy común, muy generalizable a sectores y empresas, pero no es lo único que se puede hacer ni de lejos.

Con inteligencia artificial se puede procesar el lenguaje, se puede procesar la voz, se puede analizar imágenes, se pueden planificar movimientos, se pueden crear vídeos e imágenes, se pueden hacer juegos, etc, etc, etc. Un campo inmenso y creciente de usos.

La analítica de datos es sólo uno de esos muchos campos. Uno solo. Un pequeño subconjunto.

No hay identificación.


Mito 5: Big Data implica Inteligencia Artificial y viceversa


De nuevo, tiende a identificarse Big Data con Inteligencia Artificial. No es así. Son dos cosas diferentes aunque puedan solapar, y solapen de hecho, en algunos casos.

Big Data es tecnología para procesar grandes volúmenes de datos, de diversas tipologías (incluyendo datos no estructurados) a grandes velocidades, en tiempo real o cuasi-real.

Esa tecnología se puede aplicar, sí, para analítica sobre grandísimos conjuntos de datos y, en ese caso, estaríamos uniendo inteligencia artificial y Big Data.

Pero Big Data se puede utilizar también, por ejemplo, para el llamado Complex Event Processing donde no hay, por sí mismo, analítica ninguna ni necesariamente inteligencia artificial.

Y la inteligencia artificial, como ya hemos visto, no siempre necesita muchos datos, y cuando no necesita muchos datos, no necesita Big Data.

De nuevo, no hay identificación, solo una útil convivencia e interacción en ciertos casos.


Conclusiones


En conclusión, no identifiquemos, en primer lugar, términos que designan cosas diferentes. No es lo mismo análisis de datos, que Big Data, que inteligencia artificial. A veces concurren, pero no son lo mismo y ninguno de los tres implica necesariamente a ninguno de los otros dos.

Y ya en el campo de la inteligencia artificial. no asumamos que necesita datos, porque no siempre es así. Y no asumamos que, cuando la inteligencia artificial necesita esos datos, es algo positivo porque, en realidad, suele ser una necesidad pero también un lastre.

Espero que esto ayude al lector.

Y espero a contribuir a clarificar las cosas aunque, debo confesar que, en este respecto, me siento un poco como 'una voz que clama en el desierto' y que muchos preferirán ignorar estos avisos y mantener sus concepciones o mensajes erróneos en lugar de reflejar la realidad.

¡Qué le vamos a hacer!


No hay comentarios:

Publicar un comentario