Google revela las principales amenazas para la Inteligencia Artificial

Google DeepMind, un laboratorio líder en inteligencia artificial (IA), detalló las principales amenazas para esta herramienta y alertó sobre los riesgos que pueden representar los ataques a agentes autónomos.

En primera instancia, es importante explicar que los agentes autónomas son sistemas de IA que operan de forma independiente y utilizan modelos de lenguaje. Así pues, pueden analizar información, tomar decisiones y ejecutar secuencias de tareas complejas.

Google DeepMind detalló que el problema del agente no es su propio funcionamiento. Al contrario, el gran riesgo radica en el mundo digital en el que debe hasta automatizar, analizar, redactar o gestionar tareas.

Esta clase de IA tiene un objetivo, navegar en el mundo digital, leer lo que encuentra y actuar en consecuencia. Por tanto, Google indicó que el riesgo radica en que cualquier contenido que encuentra la herramienta se convierte en una instrucción potencial.

TRAMPAS A LAS IA

El laboratorio señaló especialmente la inyección de contenido, puesto que algunas páginas web pueden tener instrucciones escritas de forma «invisible». Las personas no ven nada, pero la IA la procesa como parte de su tarea.

De acuerdo a experimentos, algunas páginas tienen la capacidad de alterar el comportamiento de la IA entre 15% y 86%. Para los atacantes, una cifra tan alta es una tasa de éxito.

Otro riesgo es el ocultamiento dinámico, en el que el servidor detecta que se trata de una IA y no de un humano. Por tanto, puede mostrarle al agente una versión diferente de la página con instrucciones completamente distintas.

Estos son situaciones individuales, pero todo puede empeorar si se trata de varios agentes que interactúan entre sí. En estos casos, el atacante puede llegar a afectar a una sola IA para que se genere una falla en cascada.

Google DeepMind señaló que las IA se pueden «contaminar» con una sola imagen o correo. Para evitarlo, proponen fortalecer los modelos de entretenimiento, aplicar filtros a tiempo real y crear estándares de sistema que permitan verificar la información.