Los 5 niveles diferentes de agentes de IA
¿Cuáles son los 5 niveles diferentes de agentes de IA?
Los agentes de IA se definen como entidades artificiales que pueden percibir su entorno, tomar decisiones y emprender acciones basándose en las herramientas disponibles.
Consideraciones sobre el dominio
Ha habido mucho revuelo, alarmismo y especulación sobre la AGI o la Superinteligencia Artificial (ASI) y lo que las organizaciones están preparando. Pero lo más interesante es cómo aprovechar el poder de los LLM y los Agentes Autónomos de IA para implementaciones de dominios específicos en las organizaciones.
El gran motor comercial de las interfaces de usuario conversacionales son las empresas de banca, comercio minorista, servicios financieros, etc., que crean interfaces de usuario basadas en IA para que los usuarios interactúen con productos y servicios.
Cualquier entidad capaz de percibir su entorno y ejecutar acciones puede considerarse un agente.
¿Dónde nos encontramos actualmente?
Considerando las implementaciones de dominio limitado, actualmente nos encontramos en los niveles dos y tres; muy probablemente en el nivel 2.5.
LangChain ha liderado la creación de marcos para el desarrollo de Agentes. DSPy en la programación de LLM y LLamaIndex con su enfoque RAG agéntico.
Estos agentes se sitúan entre el 50% y el 90% de los adultos cualificados, con capacidades de automatización de tareas estratégicas. Basándose en la entrada del usuario, los agentes pueden descomponer la descripción del usuario, planificar subtareas y ejecutar esas tareas de forma ordenada para llegar a una conclusión.
Estos agentes son capaces de iterar sobre subtareas intermedias hasta llegar a una respuesta concluyente.
Ejemplo práctico
Consideramos la siguiente pregunta: ¿Quién se considera el padre del iPhone y cuál es la raíz cuadrada de su año de nacimiento?
Se trata de una pregunta bastante ambigua y compleja de responder, que exige seguir una serie de pasos para llegar a una respuesta. Hay una tarea matemática y el fin, pero también hay que recuperar conocimientos para responder a la pregunta.
Para este ejemplo práctico, el agente dispone de unas cuantas acciones:
- LLM Math,
- SerpApi, abajo hay una captura de pantalla del sitio web de SerpApi. SerpApi permite extraer datos de los resultados de los motores de búsqueda.
- GPT-4 (gpt-4-0314).
A continuación, considere la salida de este agente basado en LangChain y observe cómo el agente va del pensamiento, a la acción, a la observación de forma secuencial hasta que llega a una respuesta final y la cadena se termina.
En la tabla que muestra los cinco niveles de agentes, te darás cuenta de que los agentes del nivel uno están basados en reglas… Los agentes basados en reglas pueden tener cierta autonomía, pero en la práctica, consisten en pasos predefinidos que se ejecutan basándose en pasos predefinidos.
Estructura básica de los Agentes de Dominio Estrecho
Los Agentes tienen como columna vertebral un Modelo de Lenguaje Amplio (LLM). Los agentes también tienen acceso a una serie de herramientas. Las herramientas pueden tener capacidades específicas, como búsqueda web, APIs específicas, RAG, matemáticas y más.
Las herramientas se describen en lenguaje natural para que el agente sepa de qué herramienta hacer uso en una fase concreta del proceso. El número de herramientas y las capacidades de las herramientas determinan lo potente que es el agente.
Consideraciones prácticas
Si volvemos a considerar las implementaciones de Agentes en dominios limitados, hay que tener en cuenta algunas consideraciones prácticas.
Sensorial
La mayoría de los agentes actuales son virtuales y se accede a ellos mediante voz o texto. Estos agentes pueden razonar y llegar a conclusiones y, a su vez, responder con voz o texto. Se pueden añadir elementos multimodales en los que los agentes pueden recibir imágenes o vídeo como entrada, o generar imágenes o vídeo como salida.
Sin embargo, en general los agentes no tienen otras capacidades sensoriales como la visión, el tacto, el movimiento, etc. Con todo el desarrollo en términos de robótica, la combinación de agentes con capacidad sensorial / física marcará el comienzo de una nueva era.
LLM Backbone
Como he mencionado antes, el agente tiene como columna vertebral un LLM, o más concretamente una API LLM a la que se llama. Los agentes pasan por múltiples iteraciones y llamadas a la API. Hay una única dependencia que necesita ser atendida, por lo que yo diría que para cualquier implementación de agente de producción, la redundancia tendrá que ser incorporada en la columna vertebral del agente.
Los LLM autoalojados o los servidores de inferencia locales son la mejor forma de garantizar el tiempo de actividad.
Coste
Hacer uso de las APIs comerciales de LLM será muy costoso, considerando que por cada pregunta planteada al agente el LLM es consultado múltiples veces.
Imaginar miles de usuarios sólo agravará el problema de los costes.
Latencia
Los sistemas conversacionales exigen respuestas de sub-segundos, cualquier sistema complejo, como los agentes que necesitan realizar múltiples pasos internamente para cada turno de diálogo se suma a la latencia total experimentada por el usuario.
Esto puede convertirse en un reto a superar.
No llegar a la conclusión
Es importante señalar que actualmente hay casos en los que el agente no llega a una conclusión, o llega a una conclusión prematuramente. Si el usuario puede acceder y ver los pasos de razonamiento del agente, la consulta del usuario podría satisfacerse mediante pasos intermedios en el razonamiento del agente. En este caso, el usuario puede detener al agente e informarle de que se ha proporcionado suficiente información.
Herramientas y costes
Los agentes necesitan tener acceso a herramientas para realizar sus tareas. Puede existir todo un mercado en el que las herramientas se creen de forma compartida. Donde los creadores no necesiten crear herramientas desde cero, sino seleccionar una herramienta existente.
Estas herramientas pueden ser gratuitas o de pago; las herramientas pueden acceder a APIs que son de pago.
El término agentes
A medida que la IA ha ido progresando, el término agente se emplea para describir entidades que demuestran un comportamiento inteligente y poseen capacidades como:
- autonomía,
- reactividad,
- proactividad e
- interacciones sociales.
En la década de 1950, Alan Turing introdujo el emblemático Test de Turing, un concepto fundamental en la IA diseñado para investigar si las máquinas pueden mostrar un comportamiento inteligente similar al de los humanos. Estas entidades de IA suelen denominarse agentes y constituyen los componentes fundamentales de los recurso.
Aprendizaje por transferencia
El aprendizaje por transferencia consiste en aprovechar los conocimientos adquiridos en una tarea y aplicarlos a otra.
Los modelos de cimentación suelen adherirse a este enfoque, en el que un modelo se entrena inicialmente en una tarea relacionada y posteriormente se afina para la tarea descendente específica de interés.
El aprendizaje por transferencia es un concepto poderoso y aumenta la versatilidad de los modelos, que pueden realizar tareas nunca vistas basándose en el aprendizaje anterior.
Conclusión
De alguna manera se está pasando por alto que los Agentes Autónomos de IA representan un avance fundamental en tecnología.
Los agentes, dotados de inteligencia artificial, tienen la capacidad de:
- Operar de forma independiente,
- Tomar decisiones y
- Actuar sin intervención humana constante.
En el futuro, los agentes autónomos de IA están llamados a revolucionar sectores que van desde la sanidad y las finanzas hasta la fabricación y el transporte.
Sin embargo, existen consideraciones relativas a la rendición de cuentas, la transparencia, la ética, la responsabilidad y la parcialidad en la toma de decisiones.
A pesar de estos retos, el futuro de los agentes autónomos de IA es muy prometedor. A medida que la tecnología siga evolucionando, estos agentes se integrarán cada vez más en nuestra vida cotidiana.
Si te ha parecido interesante, os dejamos otros artículos relacionados en caso de que quieras saber más sobre Inteligencia Artificial en la experiencia del cliente o ¿Por qué los restaurantes “exitosos” necesitan asistentes de voz inteligentes para contestar llamadas?.
Para no perderte ninguna novedad, te recomendamos que eches un vistazo a nuestro instagram.
¿Quieres probar un asistente conversacional en tu negocio?
Escríbenos a digame@bookline.io o rellena el formulario a continuación