miércoles, 31 de enero de 2024

El valor de la experiencia analógica en un mundo digital

Las nuevas tecnologías, de todos los ámbitos pero, en mi caso, especialmente del mundo digital,  tienden a deslumbrarnos con sus nuevas y a veces inesperadas capacidades.

Pero para un mejor entendimiento, para un verdadero aprecio, conviene ponerlas en perspectiva.


Mitos, propaganda e incomprensión


No es malo que nos entusiasmemos con las tecnologías. Todo lo contrario. Son demostraciones del ingenio humano y, bien utilizadas, ayudan a mejorar nuestras vidas, a ser mas eficientes y a conseguir más.

Aunque lo que no es tan bueno es que ese entusiasmo derive, como es muy frecuente, en mito, en publicidad errónea, en expectativas hinchadas (como recoge el famoso diagrama de Gartner), en mensajes confusos o erróneos hacia la ciudadanía y las empresas.

En muchos de esos mensajes exagerados e incorrectos, subyace con frecuencia la mera ignorancia, el afán de notoriedad o la pulsión de conseguir atención. Y, en otros, el interés comercial, el realzar una tecnología más allá de la realidad y, también con frecuencia, el desacreditar la tecnología anterior, entendiendo que eso ayuda a vender la nueva

Y, para esos casos, un gran antídoto es, aparte del conocimiento y rigor, la experiencia, que no deja de ser otra forma de conocimiento.


La experiencia y la perspectiva


La experiencia que tiene que ver con haber conocido las tecnologías anteriores e incluso las metodologías anteriores. 

En este último caso, es muy sano, por ejemplo, entender por qué surge la filosofía 'agile', para entender cuándo es realmente aplicable y cuando no y para poner en su justa medida los méritos y deméritos de una dirección de proyectos con enfoque predictivo o iterativo.

En el campo tecnológico, por ejemplo, resulta muy ilustrativo conocer la historia de cómo ha evolucionado la tecnología para análisis y reporting, desde los probablemente ya bastante extintos ODS ('Operational Data Store'), las bases de datos multidimensionales y el OLAP ('Online Analytical Processing'), los datawarehouse y la idea del Business Intelligence incluyendo data mining, para acabar en los Data Lakes, el Big Data y el Machine Learning, más actuales.

Y conocer un poco la historia de la inteligencia artificial nos ayudaría también, por ejemplo, a no acentuar en exceso el énfasis en la visión basada en datos, reconociendo que pese a ser ese el enfoque de más claro éxito actual, han existido y existen alternativas.  


La experiencia vital de la transición hacia lo digital


Pero otra perspectiva de esa experiencia, nos lleva a no sólo ver la tecnología como su conocimiento y su aplicación en empresas y administraciones, sino también a su impacto en nuestro modo de vida.

Y, en ese sentido, puede ser, de nuevo, interesante la experiencia y la perspectiva temporal para comprender mejor los cambios, quizá intuir el futuro (aunque eso es cada vez más difícil) y evaluar un poco la bondad o no del impacto de esas tecnologías en nuestra forma de vida.

Por ejemplo, para entender cómo ha cambiado lo digital, la aparición del smartphone y de las redes sociales a nuestras relaciones, como se estudia en el libro 'Alone together', conviene haber vivido cómo era el mundo cuando no te podías relacionar con otras personas a través de las redes sociales, de WhatsApp o de Teams una comparativa que, por ejemplo, ya no pueden hacer las generaciones más jóvenes.

En ese sentido, me ha llamado la atención la frase que vuelca Luciano Floridi en los prolegómenos de su libro 'The ethics of artificial intelligence'  cuando nos hace notar:


Future generations will never know what an exclusive analogue, offline, pre-digital reality was like. We are the last generation to have experienced it


Y es que, si nos paramos a pensarlo, es cierto. Las generaciones futuras, incluyendo la Generación Z y, casi, casi, los millenials, no han conocido lo que era el mundo cuando Internet, aunque existente, no estaba al alcance más que de muy pocos, cuando no había móviles y cuando no existían las redes sociales.

Y, en ese sentido, les falta, probablemente, perspectiva, para calibrar realmente el impacto de lo digital, y de la modificación en nuestras formas de vida, unas modificaciones que, en ocasiones, pueden incluso merecer una valoración ética.


Sin nostalgias ni superioridades


Pero esa experiencia hay que ponerla en su justo punto. 

De la misma forma que las nuevas generaciones no han conocido el mundo pre-digital, mi propia generación no ha conocido, por ejemplo, un mundo en el que ni siquiera existiese el teléfono, o que los coches fuesen escasos y las autovías o autopistas inexistentes o no hemos conocido un mundo en que, al menos en Europa Occidental, esté garantizado, con permiso de la economía, el estado del bienestar.

Valorando como importante, pues, la experiencia y la perspectiva, hay que evitar, por tanto dos tentaciones: la tentación de la nostalgia que nos lleva a echar de menos el mundo pasado como si fuese un mundo ideal, y la tentación de la superioridad, de creer, no sólo que ese tiempo fue mejor, sino que tenemos derecho a juzgar y despreciar a las nuevas generaciones por desconocer su pasado o por pensar que yerran en sus nuevas visiones de la vida.

Es mejor conservar el tesoro de la perspectiva y la experiencia mediante una comunicación continua y franca entre generaciones que, aparte de muy satisfactoria por sí misma casi en el terreno personal, nos puede ayudar a entender mejor nuestro mundo y tomar mejores decisiones. 


Conclusiones


Si queremos entender la situación real de nuestro mundo y nuestra sociedad, en general, pero en este caso especialmente a la naturaleza e impacto de la tecnología, es muy importante, por supuesto, el rigor, pero también la experiencia y la perspectiva temporal, la perspectiva que sólo da el haber vivido otras situaciones.

Y para conseguir que esa esa experiencia de frutos, necesitaríamos una comunicación franca y fluida entre generaciones.


lunes, 29 de enero de 2024

Los tres principios del liderazgo para Satya Nadella, CEO de Microsoft

Me encuentro leyendo el libro 'Hit Refresh', escrito por Satya Nadella, actual CEO de Microsoft.

Un libro que hacía tiempo tenía ganas de leer- Y no tanto por el libro en sí, en el que no sabía muy bien qué me iba a encontrar, sino por el personaje, Satya Nadella.

En este post voy a hacer un breve apunte sobre la visión que del liderazgo tiene Nadella, pero antes quisiera hacer un muy breve paréntesis para detenerme en el personaje.


Una percepción sobre Satya Nadella y Microsoft


Mi interés por Nadella no es tanto por unos nombres y apellidos concretos, por la persona como tal, sino por la obra que está realizando en Microsoft.

Hace no tantos años, en la época final de Steve Ballmer, Microsoft, uno de los grandes protagonistas de la revolución digital en las dos últimas décadas del siglo XX, el dueño del puesto de trabajo con Windows y el indiscutible líder de las herramientas de productividad con su Office, parecía languidecer, incapaz de responder adecuadamente al cambio en el mundo digital que se producía con fenómenos como la explosión de Internet y la Web 2.0, la omnipresencia del smartphone como dispositivo preferido entre los usuarios y la llegada arrasadora de los servicios en la nube, especialmente tras la llegada de Amazon AWS.

Microsoft inicialmente, y durante bastante tienes tuvo respuestas lentas y probablemente erróneas, cuando no negacionistas ante algunos de esos fenómenos. Paradójicamente, Microsoft parecía alejada de la innovación, de la vanguardia tecnológica y sus negocios, ya maduros, parecían claramente amenazados.

Y, sin embargo, en los últimos años, Microsoft ha conseguido 'dar la vuelta a la tortilla' y su estrategia, posicionamiento y realizaciones le sitúa como indudable líder. Quizá haya abandonado la lucha por el móvil como dispositivo, pero está presente en todos los smartphones. Ha construido Azure, la segunda plataforma de servicios en la nube, por delante por ejemplo de Google y sólo por detrás de Amazon AWS, ha reorientado hacia un modelo en la nube de tipo SaaS sus aplicaciones estrella, dando lugar a Office 365 o Dynamics 365. Y se ha convertido también en uno de los mayores actores en el campo de la inteligencia artificial.

Al contrario de lo que sucedía hace a lo mejor una década, ahora Microsoft ejerce un liderazgo real, a veces compartido, eso si, en casi todos los campos de tecnología digital.

Y todo parece apuntar a que quien ha fijado la estrategia y ha conseguido que se lleve a cabo es él, Satya Nadella.

Aunque en el libro habla muy bien de su predecesor, Steve Ballmer, y aunque insinúa haber recibido algunas pistas de él y de Bill Gates, lo cierto es que la enorme transformación de Microsoft coincide con el mandato de Nadella, así que resulta difícil no pensar que es él, Nadella, el líder inequívoco de esa transformación.


Los principios del liderazgo para Satya Nadella


Y, en ese sentido, parece interesante conocer cómo ve el liderazgo Nadella. En un punto del libro, Nadella dice que para él existen tres principios en el liderazgo. Creo que son principios que ya había expuesto con anterioridad a la publicación de este libro porque los he visto en  alguna publicación en Internet creo que anterior a la publicación de esta obra (que data de 2018).

En cualquier caso, éstos son esos tres principios:


  • Claridad: Traer o generar claridad en aquellos con los que se trabaja, evitando el ruido y los mensajes confusos.

  • Energía: Generar energía no sólo en el equipo directo sino, en general, en toda la compañía. Inspirar optimismo, creatividad, compromiso y crecimiento y crear un entorno de trabajo donde cada uno pueda dar lo mejor.

  • Acción: Encontrar el camino para hacer que las cosas pasen, para generar el éxito, encontrando el equilibrio entre el éxito de largo lazo y los logros de corto y teniendo una visión amplia en la búsqueda de soluciones.


La verdad es que es una caracterización sucinta del liderazgo, pero creo que muy acertada.


La importancia del ejemplo


En realidad, los principios anteriores, tampoco resultan sorprendentes, ni especialmente novedosos u originales. Probablemente muchos autores hayan publicado cosas parecidas e, incluso, probablemente muchos de nosotros los podríamos formular con sólo una pequeña reflexión.

Hay un factor importante y diferencial, sin embargo. Quien identifica y aboga por esos principios es una persona que, en la práctica, y de manera claramente demostrable, ha ejercido ese liderazgo.

Así que, incluso aunque podamos pensar que no son originales, o que en realidad se los ha preparado alguien del equipo de comunicación de Microsoft, o incluso que se trate de pura imagen, lo cierto es que si te habla de liderazgo alguien que ha demostrado tan claramente ejercerlo, y ejercerlo con éxito, es como para prestar atención. 


Conclusiones


Claridad, energía y acción, parecen buenos atributos para resumir el liderazgo y una buena receta para el éxito. Nos lo dice, nada más y nada menos, que Satya Nadella.


miércoles, 24 de enero de 2024

Inteligencia artificial generativa para la decisión y su uso en robots

¿Te imaginas la inteligencia artificial generativa adoptando decisiones? ¿Te la imaginas controlando un robot? ¿Tiene sentido?

Pues más de lo que un 'bote pronto' nos puede hacer pensar.

Veamos.


El objetivo original de la inteligencia artificial generativa 


El nombre de inteligencia artificial generativa proviene de lo que considero es su objetivo original, a saber, crear, o quizá sea más aceptable decir 'generar' contenido nuevo, como contrapunto a la inteligencia artificial discriminativa que, de alguna forma, pretende dar una solución a un problema o pregunta.

Sería algo así como 'crear' versus 'resolver'.

Y ese papel se nos refleja de forma clara, sencilla e intuitiva cuando creamos una nueva imagen con DALL-E o cuando escribimos un artículo con ayuda de ChatGPT.


Transversalidad y los modelos fundacionales


Y, sin embargo, y como ya hemos mencionado no hace mucho en este mismo blog, parece como que la inteligencia artificial generativa, ya en sus realizaciones actuales, ha desbordado un poco, o quizá un bastante, ese objetivo que le da nombre y que se traspone a multitud de casos de uso más allá de lo meramente generativo.

Como razonaba en el post 'Modelos fundacionales y la inteligencia artificial general', los modelos de inteligencia artificial generativa ya han conseguido y avanza en la denominada multimodalidad, es decir trabajar con diferentes medios como texto, imagen vídeo, música, código, etc) e incluso en que sus 'razonamientos' (con comillas) ganen una cierta generalidad, una cierta transversalidad. 

Y esa capacidad de ser adaptados a nuevos problemas y esa transversalidad, como explicaba en el mismo post, ha hecho que se reclame para ellos el nombre de modelos 'fundacionales' 


Decisiones e Inteligencia artificial generativa: la viabilidad.


¿Pero podemos ir más allá? ¿Podemos utilizar la inteligencia artificial generativa para tomar decisiones?

Pues resulta que si.

Hay una forma muy sencilla y fácil de entenderlo. Imagina que tienes que tomar una decisión cualquiera, por decir algo sencillo qué comida te vas a a preparar hoy. Y ante la duda, le preguntas a ChatGPT y ChatGPT te sugiere un plato, te indica los ingredientes necesarios y cómo se prepara. Y, como te parece bien, eso es lo que haces: vas al supermercado, compras lo que necesitas y preparas el plato.

Está claro que en este caso tú, humano, has supervisado la respuesta de ChatGPT ('human-in-the-loop'), pero también está claro que has seguido su consejo.

Imagina ahora que el texto de respuesta de ChatGPT lo procesas mediante un software, también de IA, que 'extrae' los ingredientes que necesitas y se conecta a Amazon (directamente o usando robots RPA) y compra esos ingredientes.

Ese escenario te aseguro que, aunque no sé si es muy práctico, es técnicamente posible ya hoy en día, aunque probablemente fuese algo propenso a errores.

Pero en cualquier caso, una vez que te has quitado del bucle, una vez que ya no hay 'human-in-the-loop' como se expresa formalmente, la decisión la ha tomado ChatGPT, es decir, la inteligencia artificial generativa.

El escenario, aunque viable, no es que sea de lo mejor que se puede hacer, pero me sirve para argumentar que es perfectamente viable tomar decisiones con base en inteligencia artificial generativa.


Decision Transformer


Entrando en un territorio más concreto y técnico, Gerhard Paaß y Sven Giesselbach en su libro 'Foundation Models for Natural Language Processing' nos explican, ya bastante avanzado el libro, la arquitectura y planteamiento del 'decision transformer'.

Nos recuerdan que, en esencia, y aunque tendamos a pensar en secuencias de palabras (textos), los modelos generativos del tipo transformer realmente operan con secuencias de, digamos, tokens. En el caso de tratar texto, esos tonkes representan palabras, partes de palabras u otros elementos textuales. Cuando entramos en el campo de la multimodalidad, los tokens pueden representar partes de imágenes, vídeos, notas musicales y cosas así. pero seguimos operando con secuencias de tokens y, a partir de una secuencia de entrada, generar una secuencia de salida.

Cambiando el tipo de secuencias que tratamos, podemos cambiar lo que hace el modelo transformer.

El decision transformer es una variación del 'transformer normal' usado en grandes modelos de lenguaje y otras soluciones generativas pero en este caso, se va a usar a un problema en que un agente debe tomar decisiones (decidir la siguiente acción) basada en el estado del problema.

No voy a entrar en los detalles más técnicos, pero en la obra citada, los autores nos describen aspectos de cómo se adapta el modelo transformer para este caso, la política para los 'embeddings' contextuales y un entrenamiento, apoyado en un aprendizaje por refuerzo ligeramente especializado, y con base en datos de trayectorias. 

Los autores aportan referencias de benckmarks aplicados a este transformer que arrojan buenos o muy buenos resultados. Es decir, demuestran que uun decision transformer, actua como un agente que toma decisiones adecuadas sobre qué acción realizar ante un estado del problema.

Ahora la prueba ya no es intuitiva como en la sección anterior argumentaba. Estos benchmarks demuestran que, al menos en terrenos acotados, los modelos de inteligencia artificial generativa  son aptos para la toma de decisiones.


Inteligencia artificial generativa y robótica


La traslación de lo anterior a la robótica es casi inmediata.

Como explico en uno de los primeros videos de mi proyecto 'The robot notes', en concreto el titulado 'The robot concepts', un robot es, en esencia un agente inteligente. Un agente que obtiene información de su entorno y de sí mismo vía sensores (con lo que conoce el 'estado del problema) y decide las siguientes acciones que implican, al final qué hacer con los actuadores que le permiten actuar sobre sí mismo y sobre su entorno.

Es decir, mantenemos la estructura de sensores y actuadores del robot al modo tradicional pero la decisión sobre las acciones, la toma ahora un modelo generativo.

De hecho, los benchmarks a que me refería más arriba y que aportan los autores, son del campo de la robótica. Por ejemplo, citan el benchmark D4RL que simula robots del tipo HalfChetaa, Hopper o Walker)

¿Cómo lo ves?


Una par de advertencias


Se me vienen a la mente, no obstante, un par de advertencias.

Por un lado, no tengo datos suficientes para afirmarlo, pero intuyo que estos primeros resultados, siendo muy satisfactorios, probablemente no apliquen todavía a todo tipo de robots ni a robots en entornos muy complejos, aunque intuyo que se conseguirá y a buena velocidad.

Por otro lado, como advierto en algunos cursos, si los algoritmos tradicionales, tanto de informática como de robótica, y en buena medida la inteligencia artificial discriminativa, están orientados a la exactitud, a la obtención de la respuesta correcta, los generativos están orientados a contener una respuesta coherente. En ese sentido, pudieran ser menos predecibles y, quizá, y no lo afirmo con rotundidad, sólo lo señalo como posible, no fueran óptimos o convenientes en entornos de automatización industrial (entorno muy predecible y donde, por decirlo de alguna forma, no vale la pena 'improvisar') o entornos críticos donde no queremos arriesgarnos a un comportamiento no previsto. 


Conclusiones


Parece claro y demostrado que la inteligencia artificial generativa, trasciende su misión original, la de crear contenido, y ya es capaz de tomar decisiones aplicables, incluso, en robótica.


lunes, 22 de enero de 2024

Historias y memoria: creatividad y grandes modelos de lenguaje

Permítaseme en este post una breve digresión, algo así como un juego mental, un devaneo con la imaginación y con la especulación, aunque basado en aspectos técnicos reales.

Y todo ello a propósito de la memoria en la escritura, comparando lo que puede dar de sí la inteligencia artificial generativa y los grandes modelos de lenguaje por un lado, y lo que hacemos los humanos por otro.


El contexto en los LLMs. La atención


Una de las grandes aportaciones de las nuevas arquitectura de deep learning utilizadas en los modelos de inteligencia artificial generativa es el de la atención, tan importante que el artículo seminal de la arquitectura Transformer, que está en la base de muchos de esos grandes modelos de lenguaje, se titulaba 'Attention is all you need'.

La atención es un mecanismo por el que una red neuronal tiene en cuenta en sus resultados un amplio contexto permitiendo, además, 'fijar más la atención' en unas partes o en otras del contexto (que incluye de manera notable el 'prompt' recibido).

Este mecanismo ha permitido superar a lo aportado hasta el momento por las redes neuronales recurrentes (RNN, 'Recurrent Neural Networks') que guardaban un contexto muy limitado (en esencia, la palabra anterior).


La memoria de lo escrito en LLM


Pero hay un segundo ingrediente, en realidad apoyado en el anterior, que completa el dibujo: la autoatención.

Mediante la autoatención, la red neuronal, no sólo tiene en cuenta el contexto recibido como entrada, sino el propio texto generado por el modelo en su labor 'creativa'. Y esto da lugar a los llamados modelos autorregresivos, de los cuales, por cierto, el muy famoso GPT es un ejemplo notable. 

De alguna forma, pues, los grandes modelos del lenguaje tienen 'memoria de lo escrito', de lo que han plasmado en sus respuestas y 'composiciones'.


Limitaciones en la memoria. El tamaño del contexto.


Pero la memoria de estos modelos no es infinita. Aunque los grandes fabricantes de estos modelos, los OpenAI, Google, Meta, Microsoft, etc buscan aumentar más y más ese contexto, al final siempre existe un límite,

Así nos lo recuerdan Gerhard Paaß y Sven Giesselbach en su libro 'Foundation Models for Natural Language Processing' cuando nos dicen, refiriéndose a los PLM, ('Pretrained Language Models') que


As the story generated by the PLM gets longer, often the earlier context is forgotten and the text develops in an aimless fashion.


No sólo es que ese contexto sea limitado sino que, de cara a 'fiarnos' de la respuesta de uno de estos grandes modelos de lenguaje, parece que podemos dar más credibilidad a las respuestas relativamente cortas y contextos sencillos, puesto que la capacidad del modelo abarca suficientemente todo el contexto incluyendo el texto ya generado. 

Ante contextos grandes y, sobre todo, ante una respuesta larga, se empieza a perder el contexto y, por tanto, entra en riesgo la coherencia del texto generado.

Y eso es lo que puede ocurrir, por ejemplo, en la narrativa.


Exactitud versus creatividad


Si queremos la respuesta del modelo para tomar una decisión, para aplicarla en el mundo real, esa pérdida de contexto, evidentemente, tiene sus riesgos, puesto que en el mundo práctico, buscamos la coherencia e incluso la exactitud.

Pero ¿y en el caso de la escritura 'creativa'? ¿Y si lo que estamos creando en un cuento o una novela?


La memoria en la escritura humana


La verdad es que no creo que exista, y si existe la desconozco, una teoría sobre el uso de la memoria en la escritura. Así que lo que digo a continuación nace de mi intuición y de mi experiencia en la escritura, no de un estudio sesudo.

Y creo que la memoria tiene un papel importante. Porque, en general, en los textos, incluso en los literarios, se busca la coherencia. Y para ello debemos recordar el contexto y lo ya escrito.

En narrativa, existe un referente, una historia que se quiere contar y que tiene su propia lógica que se debe respetar para que la narración tenga sentido y para eso debemos recordar el contexto (el referente, en cierto sentido) y lo ya contado. Existen unos personajes que, en el caso de la literatura de calidad, tienen sus personalidades bien delineadas y, de hecho, los tipos psicológicos definidos e interesantes, suelen ser un valor interesante en esa narrativa. Y para mantener unos tipos psicológicos acertados es importante la coherencia con el contexto y con lo ya escrito.

Probablemente nosotros, los humanos, nos acordemos sin dificultad de lo que hemos escrito y, si no, basta con releerlo.

Parece, pues, que nuestra escritura, la escritura humana, mantiene la coherencia y es, por decirlo de alguna forma, autorregresiva.


La creatividad última


Pero quizá no siempre suceda así.

Quizá a veces prescindamos del contexto o de la coherencia, y así sucede, por ejemplo, en un ejercicio como la escritura automática u otras formas surrealistas de escritura, o en muchas realizaciones de escritura poética, donde la coherencia no es un valor, porque quizá estamos buscando, más bien, lo que acabo de bautizar como 'creatividad extrema' y en ese caso, puede que prefiramos romper amarras con el contexto y con la lógica.

Y eso, quizá, sólo quizá, se emularía mejor con un modelo de lenguaje que sí mantuviese un buen conocimiento de la estructura sintáctica y morfológica del lenguaje humano, pero que se liberase un poco de la parte semántica, que limitase su contexto y que fuese algo menos autorregresivo. 


Conclusiones


Cuando utilizamos los grandes modelos de lenguaje en tareas de índole práctica nos interesa que mantengan de la mejor forma posible la coherencia que nace en buena medida de un contexto amplio y una autorregresión que 'recuerde' mucho de lo ya dicho.

Incluso, en 'escritura creativa' en general será bueno ese contexto amplio, pero puede que existan rincones de la creatividad, natural o artificial, que se vean favorecidos por un contexto y coherencia limitados. 


viernes, 19 de enero de 2024

Seis formas de usar el 'fine tuning' de un modelo GPT

Una de las 'casi sorpresas' que han traído consigo los grandes modelos de lenguaje y las arquitecturas que hay detrás, ha sido su capacidad para trascender en cierta medida su propósito inicial y permitir su aplicación en dominios que quizá no eran los inicialmente los previstos.

Y otro factor, éste claramente buscado, es el especial planteamiento del entrenamiento de estos modelos.

Pero vayamos por partes.


Modelos fundacionales


Los grandes modelos de lenguaje, basados en deep learning y apoyados en novedosos mecanismos como la atención y la autoatención y arquitecturas como Transformer han demostrado que su utilidad puede ir más allá, que pueden trascender de alguna forma el territorio del procesamiento del lenguaje natural para alcanzar por un lado la multimodalidad (integración no sólo de texto sino también de imágenes, videos, música, etc) y por otro de encontrar aplicaciones en otros campos bastante diferenciados.

Esa posibilidad es lo que ha llevado a su denominación como modelos fundacionales ('foundation models') y se apoya, no solo en su arquitectura y capacidad intrínseca, sino también en el planteamiento de su entrenamiento.


El entrenamiento de los modelos fundacionales


El entrenamiento de los modelos fundacionales se realiza en dos o tres etapas que podemos visualizar en la siguiente figura que utilizo en alguno de los cursos que imparto:



Podemos observar, tres fases:


  • Pre-entrenamiento ('pre-training'): Es realmente la fase más difícil y la que realizan organizaciones como OpenAI, Google, etc. Se utilizan cantidades ingentes de datos de entrenamiento y modelos de aprendizaje auto-supervisado (a esa escala sería inviable un modelo supervisado). Con este entrenamiento se ponen las bases del modelo, pero unas bases muy avanzadas, ya perfectamente utilizables, como lo demuestra la utilizad de ChatGPT, que utiliza, claro, modelos GPT en cuyo acrónimo, 'casualmente' la P corresponde a 'Pre-trained'.

  • Ajuste fino ('fine tuning'): Un mecanismo para especializar de alguna forma ese modelo pre-entrenado y fundacional, a un ámbito concreto. Esto ya puede caer del lado de empresas y usuarios (OpenAI, por ejemplo, ofrece un API para ello) y se realiza normalmente mediante aprendizaje supervisado pero con una cantidad reducida de datos. En parte, aunque sólo en parte, esta es 'la magia' y lo que justifica que consideremos estos modelos como 'fundacionales'.

  • En funcionamiento: No siempre es mencionado como una forma de entrenamiento pero es sabido que en el uso de herramientas como ChatGPT éstas 'toman nota' del contexto y hasta cierto punto aprenden de la interacción con el usuario y también que existen técnicas de ingeniería de instrucciones ('prompt engineering') como el 'few shot prompting' específicamente dirigidas a decirle a ChatGPT cómo se resuelve un problema mediante ejemplos.


Formas de Fine-tuning


En el libro 'Foundation Models for Natural Language Processing' de Gerhard Paaß y Sven Giesselbach los autores nos proponen seis formas de hacer o usar ese 'fine-tuning' en el caso específico de GPT (y, más concretamente GPT-3), que afirman dan mejor resultado que la ingeniería de instrucciones incluyendo el 'few-shot prompting', Estos son los seis usos que proponen: 


  • Terminación ('completion'): Generar la respuesta para un 'prompt'

  • Búsqueda ('search'): Dada una consulta de búsqueda y una serie de documentos, establecer un rango entre los documentos basándose en la similaridad semántica con la consulta (recordad al respecto lo que comentaba en el post 'Los modelos de lenguaje, la semántica y los sesgos')

  • Clasificación ('classification'): Dada una consulta y una serie de ejemplos etiquetados, asignar etiqueta a la consulta.

  • Respuesta ('answer'): Se toma como entrada una pregunta, un conjunto de documentos e información de 'background'. Con base en la información de los documentos y los ejemplos, se contesta la pregunta.

  • Ajuste fino: Adaptar GPT a un dominio de texto concreto

  • 'Embeddings': Obtener un vector de 'embedding' contextual para un texto de entrada para su uso en una exploración posterior.

Confieso que en alguno de las propuestas me quedo con las ganas de conocer mejor cómo se hace en la práctica y en otras me cuesta ver la diferencia con el 'few-shot promting', pero bueno, ahí quedan al menos las pistas.

Conclusiones


Entre las sorprendentes y magníficas cualidades de los grandes modelos de lenguaje, es que han trascendido su propio intento original siendo capaces de introducirse en nuevos usos y, además, que una vez hecho el entrenamiento masivo reservado a unas pocas organizaciones, pueden adaptarse mediante un ajuste fino, mucho más ligero y al alcance casi de cualquiera, para adaptarse a dominios o usos especializados.


miércoles, 17 de enero de 2024

La explicabilidad en los grandes modelos de lenguaje

Una de las problemáticas éticas más frecuentemente mencionadas en relación con la inteligencia artificial, es la de la falta de explicabilidad de los algoritmos. 

Nos preguntamos, ahora que están tan en boga la inteligencia artificial generativa y los grandes modelos de lenguaje (LLM, 'Large Language Models'), en qué punto estamos en relación con la explicabilidad en este caso.

Bueno, creo que no muy diferente de como estábamos ya antes de su popularización y 'explosión mediática 

Pero veamos...


El problema de la explicabilidad


El problema de la explicabilidad, o más bien de la falta de explicabilidad de los algoritmos de la inteligencia artificial, radica en que una buena parte de los algoritmos de inteligencia artificial, y muy en especial los más potentes incluyendo a todo el 'deep learning', no nos permiten conocer su 'razonamiento', la forma en que llegan a sus conclusiones y expresado en un lenguaje que podamos entender los humanos.

Y eso, como conté en el último capítulo de mi libro 'Robots en la sombra', es importante en cierto tipo de decisiones que nos afectan mucho como personas (ascensos, contrataciones, condenas, concesión de préstamos, etc) y que, por tanto, querríamos entender e, incluso, recurrir.


Poniendo en su justo término la explicabilidad


Y aquí lo de 'en un lenguaje que podamos entender los humanos' es muy relevante porque, como defendí en su momento en el post 'Los algoritmos de inteligencia artificial sí saben explicarse...', los algoritmos de inteligencia artificial, en general, son absolutamente deterministas (aunque pueda parecer lo contrario) y tienen una línea de 'razonamiento', o casi mejor decir, de cálculo, absolutamente concreta, cerrada y explicable.

Y me importa destacarlo para evitar fantasías y terrores acerca de una especie de voluntad propia, un libre albedrío o un descontrol de los algoritmos.

No es así.

Lo que ocurre, lo que realmente ocurre, es que esa explicación se produce en términos numéricos y algorítmicos y no de forma simbólica y en lenguaje natural, que es lo que entendemos los humanos. Y tampoco sigue, o no tiene por qué seguir, la forma de razonamiento consciente humano, nuestras lógicas, heurísticas, presupuestos y valores.


Los grandes modelos de lenguaje como no explicables


Dicho, lo anterior ¿Qué pasa con los grandes modelos de lenguaje?

Pues pasa que, al tratarse de algoritmos de deep learning estamos ante el caso de algoritmos no explicables.

Así de simple.

La situación difiere poco, en cuanto a explicabilidad, de la que teníamos anteriormente, salvo por dos hechos: uno la potencia y popularidad de estos algoritmos, que hace que quizá les debamos prestar aún más atención, y otro la, en mi opinión, particular presencia de lo que he denominado la 'falsa' explicabilidad.


La 'falsa' explicabilidad de los modelos de lenguaje


Tú mismo, lector, puedes experimentar muy fácilmente lo que quiero decir.

Sitúate delante de tu ChatGPT, Bing chat, Bard o tu herramienta generativa del ámbito del lenguaje que prefieras. Formúlale una pregunta compleja y luego pídele que te explique cómo ha llegado a esa conclusión. 

Aunque con los algoritmos generativos nunca puedes tener total seguridad, y aunque en parte depende de los 'prompts' que hayas utilizado y en qué contexto, lo más probable es que la explicación que te aporte la herramienta sea comprensible y correcta.

¿Hemos resuelto entonces el problema de la explicabilidad?

No realmente.

Suelo destacar en algunos cursos y charlas, que los algoritmos generativos sólo buscan la coherencia (no la exactitud), y una coherencia en esencia probabilista, de aquello que generan, coherencia con la estructura del lenguaje humano, con las relaciones entre palabras, con el 'prompt' dado por el usuario, con el contexto (prompts y respuestas anteriores) y con lo ya generado por el propio algoritmo.

Es coherente, pero no necesariamente exacto, y no se basa en el más mínimo entendimiento real de 'lo que dice' ni en ninguna regla lógica en términos humanos.

A pesar de las apariencias, en realidad esa explicación es falsa: no es así como ha 'razonado' el algoritmo sino que se trata, de nuevo, de un texto coherente con el contexto, con el prompt, etc

Como, a pesar de todo, la respuesta tiende a ser acertada, para tareas poco sensibles, y siempre bajo supervisión humana, esa explicación puede ser muy útil a nivel práctico, pero no es una verdadera explicación de cómo ha 'razonado' el algoritmo, no tienes garantías de que sea correcta y, desde luego, no debería ser válida, eso creo yo, en ningún tipo de valoración ética o legal.


Mecanismos para la explicabilidad en grandes modelos de lenguaje


Así que no, pese a las apariencias, los grandes modelos de lenguaje son algoritmos no explicables (o no explicados).

Pero, como en toda la inteligencia artificial, se trabaja en intentar conseguir esa explicabilidad. Gerhard Paaß y Sven Giesselbach en su libro 'Foundation Models for Natural Language Processing', nos cuentan algunas de las líneas de trabajo. En concreto, nos mencionan las siguientes:


  • Importancia de características: Se trata de determinar de alguna forma el peso que tiene una entrada concreta, por ejemplo un token, en la salida. Vendría a ser como una derivada de la salida respecto a esa entrada. Esto nos indica qué ha pesado más en el resultado (aunque, creo que, en el fondo, eso delega en el humano el entender el porqué esa característica pesa más y si tiene sentido que sea así).

  • Explicaciones contrafactuales: investiga cómo hay que modificar las entradas o las variables de entrada para conseguir una salida diferente.

  • Modelos surrogados: Se usa para la explicación un segundo modelo, más sencillo como podría ser el caso de LIME para entrenar un modelo local acerca de alguna variable que nos interesa.

  • Explicaciones dirigidas por ejemplos: ilustran la predicción para una entrada, con base en lo que se obtiene en otras ya etiquetadas y semánticamente similares.

  • Cita de fuentes: Cuando los modelos de lenguaje utilizan un mecanismo de recuperación ('retrieval'), pueden actuar de forma parecida a como se hace en textos científicos, citando las fuentes.


Estos mecanismos son, hasta donde se me alcanza, similares a los que ya se estaban utilizando o experimentando antes de la popularización de los grandes modelos de lenguaje.

Y, en general, aunque el esfuerzo me parece interesante, loable, útil en muchos casos y casi necesario, creo que no dejan de ser soluciones, por decirlo de alguna forma, 'parciales', que sirven en algunos caso, o que nos ayudan, pero que no resuelven completamente el problema de la explicabilidad.


Una reflexión: ¿es realmente posible la explicabilidad?


Y justo al escribir este post se me ha venido a la mente una reflexión que dejaré abierta.

Me pregunto si realmente es posible conseguir la explicabilidad. 

Y lo digo porque, si los algoritmos 'razonan' o calculan de una forma algorítmico-matemática, una forma que no es la humana, conseguir, si es que lo consiguiéramos, que nos explicaran cómo han razonado en términos simbólico lingüísticos, en términos humanos, podría ser, en el fondo, sólo una aproximación, una ayuda, casi una metáfora, quizá incluso una impostura, pero nunca una verdadera explicación de cómo han llegado a sus conclusiones.


Conclusiones


Los grandes modelos de lenguaje, pues, 'heredan' la falta de explicabilidad de todos los algoritmos de deep learning y la investigación se enfrenta a ellos, poco más o menos, con las mismas armas con que venía haciéndolo hasta ahora.

Y así, se consiguen avances, se consiguen éxitos locales, se consiguen resultados en ocasiones útiles, pero no parece que lleguemos a resolver completamente el problema de la explicabilidad y, además, es posible, sólo posible, que sea, en el fondo, un problema irresoluble.


miércoles, 10 de enero de 2024

Los modelos de lenguaje, la semántica y los sesgos

Se trata éste, en el fondo, de un post divulgativo, un post con el que me gustaría que se entendiera en sus fundamentos, cómo se refleja la semántica, esto es, el significado, en los grandes modelos de lenguaje que nos ha traído la inteligencia artificial generativa aunque el mecanismo, en sus fundamentos, es el mismo que se lleva utilizando desde hace años en el Procesamiento del Lenguaje Natural (NLP, 'Natural Language Processing').

La ausencia de entendimiento


Me gustaría adelantar que, pese a que se suele hablar de NLU ('Natural Language Understanding'), es decir, entendimiento del lenguaje natural, ningún modelo del lenguaje, al menos no los basados en redes neuronales, tiene un verdadero entendimiento del lenguaje.

Lo tratan de manera efectiva, en muchos casos como 'si lo entendieran', pero no lo entienden. El tema del entendimiento nos podría llevar al tema del 'symbol grounding' que ya mencionamos hablando de robots, pero al que no vamos a volver ahora.

Quedémonos con que los modelos de lenguaje no entienden realmente el lenguaje.

Y, sin embargo, si que tienen, aunque sea por una vía ligeramente indirecta, un cierto contenido semántico.

¿Cómo lo consiguen?


Vectores

 

Primero, vamos a dar un paso atrás para hablar de álgebra. Si, algebra.

Recordemos que los vectores, sin entrar en definiciones académicas, son grupos finitos y ordenados y de números organizados en filas o columnas, algo así como [ 3  4 ]

Los vectores, cuando los estudiábamos en el colegio o el instituto nos podrían parecer algo abstracto, pura teoría, pero son básicos en tantas y tantas cosas, entre ellas el machine learning y las redes neuronales.

Cuando utilizábamos los vectores con un sentido geométrico, un vector de dos dimensiones, representaba la posición de un punto en un espacio bidimensional.

Si el vector anterior son las coordenadas de un punto, las abscisas, la X, valdría 3 y las ordenadas, la Y, valdría 4. Por decir lo de alguna forma, el vector vendría ser [ X=3 Y=4 ]


Recordando a Pitágoras


¿Cuál sería la distancia de ese punto al origen de coordenadas, es decir, al punto representado por el vector [ X=0 Y=0 ].

Pues es muy sencillo. No tenemos más que aplicar el famosísimo teorema de Pitágoras y sabremos que esa distancia es


DISTANCIA = RAIZ CUADRADA ( X2 + Y2 )


Si ahora queremos calcular la distancia de dos vectores [  X1  Y1 ] y [ X2 Y2 ],la distancia entre los dos puntos representados por esos vectores sería


DISTANCIA = RAIZ CUADRADA ( (X2 - X1)2 + (Y2 - Y1)2 )


¿Qué pasaría si ahora tuviéramos un vector de 10 dimensiones? 

Pues, aunque nos es imposible de imaginar, no nos resulta difícil de admitir que la distancia entre [ X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 ] y [ Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Y9 Y10 ] en un espacio de 10 dimensiones sería


DISTANCIA = RAIZ CUADRADA ( (Y1- X1)2 + (Y2 - X2)2 + (Y3 - X3)2 + (Y4 - X4)2 + (Y5 - X5)2 + (Y6 - X6)2 + (Y7 - X7)2 + (Y8 - X8)2 + (Y9 - X9)2 + (Y10 - X10)2 )


Fácil, ¿verdad?


Las palabras como vectores


¿Y por qué ese interés en el álgebra y en los vectores?

Pues porque las redes neuronales, cuando nos olvidamos de su metáfora neuronal y las trasladamos a algoritmos matemáticos, se basan en vectores y matrices (o tensores). Y representamos mediante vectores las entradas, las salidas y los estados intermedios.

Y su esa red neuronal se dedica a procesar lenguaje natural, pues puede tener como entrada palabras (digamos un texto a traducir o un 'prompt') y como salida otras palabras como el texto traducido o la contestación de algo como un ChatGPT.

Y, por tanto,  el texto, las palabras, las convertimos en vectores en la entrada y las obtenemos como vectores en salida.


Los 'embeddings', la distancia y la semántica


Simplificnado, podemos decir que la representación como vectores de las palabras es lo que llamamos, 'e,beddings'.

Existen algoritmos de preprocesado, de tokenización y de creación de 'embeddings' en los que no vamos a entrar, pero que hay que saber que convierten, dicho de forma sencilla, las palabras en vectores, aunque de una dimensión bastante más alta que los ejemplos de más arriba,

Así, según nos cuentan  Gerhard Paaß y Sven Giesselbach en su excelente libro 'Foundation Models for Natural Language Processing', modelos como, por ejemplo, BERT, utilizan vectores del orden de unos cientos (ej, 768)

¿Y qué pasa con la distancia?

Pues de forma parecida a como sucede con los vectores geométricos, podemos calcular una distancia en esos vectores de cientos de dimensiones. Pero si esa distancia tiene, en geometría, ese sentido de pura distancia geométrica, la distancia entre los 'embeddings' de las palabras nos indica hasta qué punto dos palabras están cercanas o lejanas desde un punto de vista semántico o en su contexto.

Tan simple como esto.

Bueno, tan simple de entenderlo a alto nivel, no de explicarlo o implementarlo en detalle.

Pero lo que esto nos indica es que, en efecto, aunque los modelos de lenguaje, en el fondo no exhiben un verdadero entendimiento del significado de las palabras, sí que tienen información de cercanía estructural o semántica. y eso, por sorprendente que pueda parecer, es suficiente, junto con, por supuesto, complejos algoritmos neuronales de procesamiento, para conseguir modelos que exhiban una más que razonable coherencia semántica.


Los sesgos


¿Y los sesgos?

Pues, en el fondo, provienen con frecuencia de este mismo mecanismo.

Si entrenamos un modelo de lenguaje con unas entradas de texto (Wikipedia, webs o libros) donde el acrónimo CEO está asociado con 'hombre' o con nombres o concordancias masculinas, en la codificación de esas palabras, 'CEO' y 'hombre', la distancia será bastante menor que la distancia que existirá entre 'CEO' y 'mujer', con las consecuencias que todos conocemos.


Conclusiones con 'disclaimer'


La explicación que acabo de hacer está por supuesto, muy simplificada, así que me perdonen aquellos que puedan conocer en detalle cómo funcionan estos algoritmos, pero creo que es suficientemente realista y al tiempo comprensible como para transmitir la idea de cómo los algoritmos neuronales pueden, sin entender realmente el texto, sin embargo conseguir coherencia semántica y cómo se pueden generar sesgos a partir de unos datos en que ya existe ese sesgo.


lunes, 8 de enero de 2024

Modelos fundacionales y la Inteligencia Artificial General

Los espectaculares avances técnicos, y los también espectaculares resultados, resultados obtenidos en los últimos meses por los modelos fundacionales, que forman parte de la inteligencia artificial generativa, pueden generar, y generan de hecho, confusión, en el sentido de que nos pueden llevar a pensar que estamos ya, en los albores de la inteligencia artificial general, a lo mejor del advenimiento de la singularidad.

Pero, realmente, creo que estamos ante una confusión, sólo una confusión.

Veamos.


Inteligencia artificial fuerte vs inteligencia artificial débil


Una distinción ya muy antigua en el seno de la disciplina de la inteligencia artificial es la que distingue entre una inteligencia artificial fuerte (o ancha) y una inteligencia artificial débil (o estrecha).

La primera se corresponde con una inteligencia artificial de propósito general, capaz de integrar todo tipo de capacidades cognitivas diversas, perceptuales, lingüísticas, de razonamiento, etc, para generar un ente artificial con unas capacidades inteligentes similares, al menos en cuanto amplitud, a las humanas. Como suelo decir claramente en las clases en que menciono esta distinción y el concepto de inteligencia artificial fuerte, esta inteligencia artificial no existe hoy en día y hay quien duda de que pueda existir alguna vez.

La segunda, la débil o estrecha, es la que se concentra en la resolución de problemas más o menos acotados: procesamiento de lenguaje, reconocimiento de voz, visión artificial, traducción, etc. Aunque hablemos de inteligencia artificial débil no debemos menospreciarla: puede ser enormemente sofisticada y avanzada...pero no cubre un espectro general de capacidades como ocurre en el caso de la inteligencia humana, sino aspectos más o menos concretos en los cuales, eso sí, puede igualar o incluso superar la capacidad humana. Y esta es la inteligencia artificial que tenemos hoy en día.


La inteligencia artificial general


No sé si algún autor propone alguna forma de distinción fina y puede que artificiosa, entre inteligencia artificial general ('General Artificial Intelligence', GAI) e Inteligencia Artificial fuerte pero, personalmente, y más en el ámbito de este post, las trataré como lo mismo, como una forma de inteligencia artificial integrada que es capaz de acometer problemas de propósito general y variado, de forma parecida a como lo puede hacer un humano.


La inteligencia artificial generativa


¿Y la inteligencia artificial generativa?

Bueno, la Inteligencia Artificial Generativa ('Generative Artificial Intelligence', GAI) es una forma de inteligencia artificial que se ha centrado, al menos en su concepción inicial, no tanto en resolver problemas (habitualmente de clasificación, regresión o segmentación) con el mayor grado de exactitud y acierto posibles, sino en generar, digamos, contenidos nuevos (textos, imágenes, vídeos, etc) donde más que la exactitud o acierto se busca la coherencia y credibilidad del contenido: que si creamos una cara humana, realmente parezca una cara humana, si creamos una noticia, realmente el texto de la noticia sea legible y coherente y parezca escrito por un humano, etc).


Modelos fundacionales


En general, los modelos generativos se centran en, durante la fase de entrenamiento, crear un modelo del mundo, es decir, una visión parametrizada y probabilística de cómo se comporta 'esa parte del mundo' que el modelo pretende de alguna forma resumir: por ejemplo, cómo se pueden parametrizar las imágenes que representan caras humanas.

Y dentro de estos modelos del mundo, uno de los más exitosos y con mayor atención mediática, son los modelos de lenguaje o grandes modelos de lenguaje (LLM, 'Large Language Models') en que el 'modelo del mundo' representa un modelo de lenguaje humano en su morfología, sintaxis y, hasta cierto punto, semántica.

Sin embargo, y aunque el objetivo inicial de estos modelos de lenguaje era deducir un modelo del mundo del lenguaje humano, lo cierto es que han demostrado, demuestran y, seguramente, demostrarán más en el futuro, una cierta capacidad para ir más allá del puro lenguaje y asumir capacidades multimodales (mezclando texto con imagen, vídeo, etc) o incluso de entrar en temas casi insospechados como en el ámbito de la genética.

Por eso, en su excelente libro 'Foundation Models for Natural Language Processing', Gerhard Paaß y Sven Giesselbach nos dicen, refiriéndose a los PLMs ('Pre-trained Language Models') que


Due to the huge increase in performance, some research groups have suggested that large-scale PLMs should be called Foundation Models, as they constitute a foundational breakthrough technology that can potentially impact many types of applications.


que refleja esa capacidad de los grandes modelos de lenguaje para ir más allá de objetivo inicial y dar solución a múltiples problemas.

¿Significa eso que la Inteligencia Artificial generativa es ya una inteligencia artificial fuerte?

Sinceramente, creo que no, ni de lejos, al menos en sus estado actual.

Y sin embargo, existe confusión en las publicaciones, especialmente en las menos rigurosas o más generalistas, al respecto y nos hacen pensar que la inteligencia artificial generativa es una inteligencia artificial general.


Una confusión en acrónimos: IAG o GAI


Una parte de la confusión viene, aparte de por la prisa en publicar sin mucho análisis, por la coincidencia de nombres o, más bien, de acrónimos. Hablamos de GAI ('General Artificial Intelligence' o 'Generative Artificial Intelligence') en inglés y de IAG ('Inteligencia Artificial General' o 'Inteligencia Artificial Generativa') en castellano. Lamentablemente, el acrónimo coincide, pero es que las letras del abecedario son finitas.

En cualquier caso, coincide el acrónimo, pero no el concepto.


Quizá un paso hacia la generalidad


Y, sin embargo, algo que puede incrementar la confusión es, precisamente, que los grandes modelos de lenguaje, se han convertido en modelos fundacionales porque son capaces de ir algo más allá del mero tratamiento del lenguaje. Parece que se trata de una forma de inteligencia artificial no tan estrecha.

Hasta cierto punto, creo que es cierto que la inteligencia artificial generativa ha ido un poco más allá de su objetivo inicial y que da un paso en la senda de la transversalidad, de la generalidad si se quiere.

Pero, por un lado, se trata un paso muy cortito, no por el mérito técnico que tiene, que es mucho, o por el avance que supone, que también creo que es muy grande, sino porque aún estamos, creo, lejísimos de las capacidades humanas, especialmente en lo relativo a su generalidad e integración.

Por otro, mi intuición me dice que si alguna vez se consigue la generalidad, será con arquitecturas diferentes a las de los grandes modelos de lenguaje actuales.

Es solo una intuición, y perfectamente discutible, pero si se examinan en detalle y con visión técnica los modelos de lenguaje actuales, sus arquitecturas son, por así decirlo, 'muy dirigidas', muy estudiadas y diseñadas mediante elementos algorítmicos como la atención y la autoatención, para conseguir esos modelos de lenguaje. Mi intuición es que, para conseguir una inteligencia artificial general necesitamos, una de dos, o una arquitectura de, digamos, integración cognitiva, que permita integrar y coordinar capacidades cognitivas procedentes de la inteligencia artificial débil, o bien, y casi mucho mejor, una arquitectura muy generalista, con nuevos modelos de aprendizaje, que permita la 'emergencia' de la capacidad cognitiva sobre una base neuronal grande y altamente interconectada.  

Insisto que el párrafo anterior es una mera intuición, ni de lejos una afirmación o un estado del arte.


Conclusiones


A pesar de su espectacularidad, del gran avance que supone, y de que, hasta cierto punto, es un avance en la transversalidad de las capacidades cognitivas de la iteligencia artificial, los modelos fundacionales y la inteligencian artificial generativa no son, ni de lejos, o no alcanzan ni de lejos a una inteligencia artificial general y por ello, pese a la susodicha espectacularidad y a la coincidencia de acrónimos, no deberíamos confundirlas.


viernes, 5 de enero de 2024

La ciberseguridad explicada a los directivos por Víctor Deutsch

'Ciberseguridad para directivos' es un libro que busca explicar la problemática y gestión de la ciberseguridad, pero de una forma sencilla, orientada a directivos, como el propio título indica, y con más foco en entender el fenómeno y gestionarlo que en profundizar en detalles técnicos en los que, de hecho, apenas entra. En ese sentido, incluso, elude la clasificación tradicional de riesgos y amenazas basados más en las características técnicas de los ataques y nos habla de los riesgos según cómo afectan a la empresa. La visión es, pues, directiva, orientada a la empresa y muy especialmente a las PYMEs.

El contenido se desarrolla a través de doce capítulos organizados en cuatro partes, como sigue:
  • 'PRIMERA PARTE: RIESGOS' Explica las amenazas a que está sometida una empresa, intentando adoptar esa mirada más empresarial y menos técnica de la ciberseguridad. Incluye cinco capítulos:

    • '1. EL MARKETING DEL MIEDO:' Tras advertirnos contra ese 'marketing del miedo' que busca asustar como forma de provocar una reacción, habla de algunos informes serios sobre ciberamenzas para luego, a través del caso Wakefield, hablar sobre los bulos y su impacto.

    • '2. LAS AMENAZAS AL PATRIMONIO: LOS ACTIVOS:' Nos habla de cuáles son los activos en la era de internet y nos explica someramente cómo proteger los activos físicos y los activos de información.

    • '3. LAS AMENAZAS AL PATRIMONIO: LAS ESTAFAS:' Nos comienza hablando de los delitos informáticos y algunos tipos de ellos para luego explicar lo que denomina los fraudes corporativos, es decir, los que tienen su origen en empleados de la propia organización

    • '4. LAS AMENAZAS A LA CUENTA DE RESULTADOS:' Entendiendo que la alteración de la capacidad operativa de una empresa impacta en sus resultados ya sea como sobrecostes, como gastos extraordinarios o como lucro cesante, examina los riesgos que pueden afectar a esa capacidad operativa, cómo a veces los ataques se realizan por el mero 'gusto' de hacer daño y luego pasa revista a los sobrecostes que se generan.

    • '5. GESTIÓN DE CRISIS:' Comienza advirtiendo en general de las consecuencias de una mala gestión de una crisis de seguridad/reputación, para luego centrarse, por un lado, en los perjuicios económicos y, por otro, en los reputacionales.


  • 'SEGUNDA PARTE: CONTROL' Tras entender las amenazas, esta parte se centra más en la protección o la seguridad propiamente dicha, de la información y se desarrolla a través de los siguientes cinco capítulos:

    • '6. UNA BREVE HISTORIA DE LA SEGURIDAD:' Repasa la historia de la seguridad en materia de informacion, comenzando por las redes de comunicaciones, siguiendo por las tecnologías de la información y luego por la aparición del PC y la extensión de Internet. De ahí pasa a explicar el concepto de 'perímetro' y finaliza con la seguridad de la información en la era 'cloud' más actual.

    • '7. LA SEGURIDAD EN LAS REDES DE COMUNICACIONES:' Nos habla del cifrado en redes públicas y de la tensión entre la complejidad del cifrado (que proporciona mayor seguridad) y la velocidad de cálculo (que tiende a llevar a algoritmos más simples y menos seguros). Remata con un extenso apartado dedicado al caso de las redes móviles.

    • '8. DEFENDIENDO LAS MURALLAS DE LA CIUDAD:' Nos habla de cómo en el mundo actual con internet y, sobre todo, la nube, el concepto de perímetro de seguridad se desvanece lo que lleva a un nuevo planteamiento de la seguridad en la empresa y nos introduce conceptos como los puntos de control o el acceso único a la red. Hace luego énfasis en la importancia de la concienciación. Dedica a continuación una sección a las pruebas, la gestión de crisis y la inteligencia y acaba proponiendo un modelo propio de gestión de la ciberseguridad inspirado en la cadena de valor de Porter.

    • '9. LA PARADOJA DE LAS PYMES:' Se centra en el caso específico de las PYMEs, proporcionando primero una breve visión de cómo ha evolucionado, explicando por qué la ciberseguridad es clave para la supervivencia de las PYMEs y detallando, con base en un informe de Telefónica, la situacióbn de la ciberseguridad de las PYMEs en España. Finaliza desmontando algunos mitos sobre la seguridad de las PYMEs

    • '10. CIBERSEGURIDAD EN LA INDUSTRIA 4.0:' Trata el caso especial de la empresa industrial, explicando algunos de los sistemas especiales que en estos entornos encontramos, aportando ideas sobre la seguridad en realación a Internet de las Cosas y los robots y finalizando con algunas reflexiones de orden ético.


  • 'TERCERA PARTE: EFICIENCIA' Aporta una visión más operativa y organizativa de la seguridad de la información y se desarrolla en los dos capítulos finales:

    • '11. LAS FUNCIONES DE CIBERSEGURIDAD:' Describe lo que es un SOC (Security Operation Center) y sus operaciones de ciberseguridad tanto básicas como avanzadas. Continua con la problemática de la construcción de código seguro y con recomendaciones para construir una cultura de la ciberseguridad. Aboga luego por ver la gestión de las vulnerabilidades como un proceso continuo y remata explicando los ciberseguros y cómo son un mecanismo de transferir los riesgos a un tercero.

    • '12. LA ORGANIZACIÓN DE CIBERSEGURIDAD:' Propone un modelo de organización de las tecnologías de la información donde la ciberseguridad o un rol como el CISO juegan un papel relevante y explica, precisamente, en qué consiste ese rol de CISO (Chief Information Security Officer). Dedica mucho espacio a la problemática de la identidad y brevemente revisa la protección de la marca y reputación online. Finaaliza proponiendo un nuevo modelo de organización de la ciberseguridad que detalla más el modelo basado en la cadena de valor que había presentado en el capítulo 8.

  • 'CONCLUSIONES' Una breve revisión de los principales mensajes que nos debemos quedar.
El libro finaliza con tres anexos informativos, a saber, 'ANEXO I. Estándares de ciberseguridad', 'ANEXO II. Autoridades y normativa de ciberseguridad' 'ANEXO III. Reglamento general de protección de datos'

Es curioso que el autor recurre, a lo largo de todo el texto y como forma de ejemplificar conceptos de seguridad, a historias y anécdotas relacionadas con la seguridad y en general conectadas con las guerras mundiales.

'Ciberseguridad para directivos' es, quizá, el primer libro que he encontrado que explica la ciberseguridad de una manera que es a un tiempo amena e informativa. Aunque es cierto que no entra en muchos detalles, desde luego no en los técnicos, es un gran recurso para mandos, para directivos, o para cualquiera que quiera obtener una visión abarcadora y comprensible de la ciberseguridad sin 'ensuciarse' con los detalles.

Buen recurso. 

Víctor Eduardo Deutsch


(Fuente: Ligera elaboración de la biografía en su página oficial)

Víctor Eduardo Deutsch
Víctor Deutsch es un profesional de Tecnología de la Información, especialista en Transformación Digital y Ciberseguridad, con 30 años de experiencia en el ámbito de las empresas tanto en España como en América Latina.

Es colaborador del blog corporativo de Telefónica Empresas España desde 2016, autor de “Ciberseguridad para Directivos” (LID Editorial, 2022) y “La legión secreta del sur” (Mascarón de Proa, 2023).

Es también profesor de la Universidad MSMK y del IMMUNE Institute en España, así como escritor académico para International University of Applied Sciences (Alemania).

Puedes conocer más del autor visitando su página oficial, su perfil en LinkedIn o siguiéndole en Twitter donde se identifica como @victordeutsch.  

Ficha técnica:


EDITORIAL: LID Editorial
AÑO: 2022 
ISBN: 978-8411311595
PAGINAS: 237

jueves, 4 de enero de 2024

Sobre si son impensables los derechos de los robots

Finaliza con este post, la serie de artículos inspirados en la lectura del libro  libro 'Person, Thing, Robot: A Moral and Legal Ontology for the 21st Century and Beyond' de David Gunkel y que aborda temáticas de roboética y que también recuerda aspectos tratados en su libro anterior 'Robot rights' donde explora la posibilidad de que los robots, especialmente los robots más avanzados de tipo humanoide, pudieran tener alguna forma, no sólo de consideración moral sino también, y en parte, aunque no únicamente, derivado de ello, alguna forma de derechos.


¿Es impensable que los robots tengan derechos?


Seguramente a muchos lectores, aunque probablemente no tanto a los que sigan este blog, la idea de que los robots tengan derechos les pueda sonar extraña, probablemente disparatada e, incluso, un poco repugnante.

La idea de que los robots tengan derechos parece que es un poco como equipararles a personas y eso, 'a bote pronto' nos genera un casi inmediato rechazo. Nos parece impensable.

Sin embargo pudiera no serlo tanto y, a ese respecto, y muy brevemente, sólo quisiera apuntar tres ideas:

  • Existe un debate real sobre la posibilidad de crear una personalidad electrónica
  • Los robots ya tienen en algunos casos derechos
  • La historia nos demuestra que puede no ser tan impensable


El debate de la personalidad electrónica


Sólo apuntar que, aunque al menos hasta donde se me alcanza, no existe ni consenso ni una senda clara de avance, el debate jurídico sobre la posibilidad de crear la idea de una 'persona electrónica' que represente a robots, algoritmos, etc (de la misma forma que en su momento se creo la 'persona jurídica' para representar a empresas y organizaciones) es un debate que está sobre la mesa.

Hasta donde sé, esa idea de la personalidad electrónica ha estado dirigida no tanto por consideraciones morales sino sobre problemáticas sobre cómo tratar la responsabilidad legal de una máquina autónoma que haga daño o sobre una eventual fiscalidad sobre robots.

En cualquier caso y, aunque, repito, hasta donde sé con poco avance, el debate sobre el concepto de personalidad electrónica existe y se trata de forma seria.


Los robots ya tienen derechos


Aunque no lo sepamos, incluso aunque nos sorprenda, en algunos casos concretos los robots ya tienen alguna forma limitada y específica de derechos.

Así, el propio David Gunkel en su libro, recuerda que en estados norteamericanos como Pensilvania o Virginia, los robots de reparto ya tiene algunos pequeños derechos para permitir de forma eficaz su circulación. 



Esta misma idea nos la recordó en el evento 'Robots & Philosphy with David Gunkel' que tuve el placer de conducir dentro de las actividades del área de Relación Robots-Persona de OdiseIA y que te animo a ver en su totalidad.


Derechos impensables e historia


Gunkel nos recuerda también en su libro, y mencionando a autores como Christopher Stone, que históricamente


each succesive extension of rights to some new entitiy has been theretofore, a bit unthinkable


Es decir, que al principio la extensión de derechos a entidades que no los tenían, parecía impensable. Y sin embargo, luego les fueron concedidos. Y eso ha ocurrido con 'entidades' que hoy en día vemos tan claro que deben tener derechos como son las mujeres o como, posteriormente, los animales.

En estos casos, lo que al principio parecía impensable, luego fue debatido seriamente y al final se reconocieron esos derechos. Añadiría que, especialmente en el caso de las mujeres, lo que hoy en día nos parecería impensable, al menos en países occidentales, es que no tuvieran derechos e iguales a los de los hombres.

Parece que hoy en día estamos iniciando una tímida transición desde la idea de que los derechos de los robots son impensables, a iniciar el debate.

¿A dónde llegaremos?


Conclusiones


Aunque no hay en absoluto consenso, ni siquiera todavía un debate demasiado extendido, lo cierto es que no sólo desde un punto de vista moral, donde es más discutible, sino también en el orden práctico, hay ya algunas razones que podrían sugerir la necesidad de conceder derechos a los robots y eso supone, al menos, el inicio del debate.

Y si miramos a la historia, eso podría sugerir que, lo que hoy resulta para muchos impensable, que los robots tengan derechos, pudiera cambiar en el futuro.