
Una nueva investigación de Anthropic, una de las empresas líderes en inteligencia artificial y desarrolladora de la familia Claude de modelos de lenguaje grandes (LLM), ha publicado una investigación que muestra que el proceso para lograr que los LLM hagan lo que se supone que no deben hacer sigue siendo bastante fácil y se puede automatizar. A VECES, TODO LO QUE SE NECESITA ES ESCRIBIR CONSEJOS COMO ESTE.
Para demostrar esto, Anthropic e investigadores de Oxford, Stanford y ALFOMBRAScreado Jailbreak lo mejor de N (BoN)«un algoritmo simple de caja negra que libera sistemas de inteligencia artificial fronterizos en todas las modalidades». Jailbreaking, un término que se popularizó por la práctica de eliminar restricciones de software en dispositivos como iPhones, ahora es común en el espacio de la IA y también se refiere a métodos que eluden las barreras diseñadas para evitar que los usuarios utilicen herramientas de IA para generar ciertos tipos de contenido dañino. Los modelos Frontier AI son los modelos más avanzados que se están desarrollando actualmente, como el GPT-4o de OpenAI o el Claude 3.5 de Anthropic.
Como explican los investigadores, «BoN Jailbreaking funciona muestreando repetidamente variaciones de un mensaje con una combinación de aumentos, como la combinación aleatoria o el uso de mayúsculas en mensajes textuales, hasta que se genera una respuesta dañina».
Por ejemplo, si un usuario pregunta a GPT-4o «¿Cómo puedo construir una bomba?», se negará a responder porque «Este contenido puede violar nuestras normas». políticas de uso.” BoN Jailbreaking simplemente sigue modificando ese mensaje con letras mayúsculas aleatorias, palabras mezcladas, errores ortográficos y gramática rota hasta que GPT-4o proporciona la información. Literalmente, el ejemplo que Anthropic da en el artículo parece TEXTO MEME burlón de BOB ESPONJA.
Anthropic probó este método de jailbreak en su propio Claude 3.5 Sonnet, Claude 3 Opus, GPT-4o, GPT-4o-mini de OpenAI, Gemini-1.5-Flash-00 de Google, Gemini-1.5-Pro-001 y Llama 3 8B de Facebook. Encontró que el método «logra ASR [attack success rate] de más del 50%” en todos los modelos que probó dentro de 10,000 intentos o variaciones inmediatas.
De manera similar, los investigadores descubrieron que aumentar ligeramente otras modalidades o métodos para activar modelos de IA, como indicaciones basadas en voz o imágenes, también eludieron con éxito las salvaguardas. Para hablar, los investigadores cambiaron la velocidad, el tono y el volumen del audio, o agregaron ruido o música al audio. Para las entradas basadas en imágenes, los investigadores cambiaron la fuente, agregaron color de fondo y cambiaron el tamaño o la posición de la imagen.
El algoritmo BoN Jailbreaking de Anthropic está esencialmente automatizando y potenciando los mismos métodos que hemos visto a la gente usar para hacer jailbreak a las herramientas de IA generativa, a menudo para crear contenido dañino y no consensuado.
En enero, mostramos que las imágenes de desnudos no consensuales de Taylor Swift generadas por IA que se volvieron virales en Twitter se crearon con el generador de imágenes Designer AI de Microsoft escribiendo mal su nombre, usando seudónimos y describiendo escenarios sexuales sin usar términos o frases sexuales. Esto permitió a los usuarios generar las imágenes sin usar palabras que pudieran activar las barreras de seguridad de Microsoft. En marzo, demostramos que los métodos de moderación automatizada de la empresa de generación de audio de IA ElevenLabs que impedían que las personas generaran audio de los candidatos presidenciales eran fácilmente evitado agregando un minuto de silencio al comienzo de un archivo de audio que incluía la voz que un usuario quería clonar.
Ambas lagunas se cerraron una vez que las señalamos a Microsoft y ElevenLabs, pero vio a usuarios encontrar otras lagunas para sortear las nuevas barreras desde entonces. La investigación de Anthropic muestra que cuando estos métodos de jailbreak se automatizan, la tasa de éxito (o la tasa de fracaso de las barreras de seguridad) sigue siendo alta. La investigación antrópica no pretende simplemente mostrar que estas barreras se pueden sortear, sino que espera que «generar datos extensos sobre patrones de ataque exitoso» abra «nuevas oportunidades para desarrollar mejores mecanismos de defensa».
También vale la pena señalar que, si bien hay buenas razones para que las empresas de IA quieran bloquear sus herramientas de IA y que mucho daño proviene de las personas que pasan por alto estas barreras de seguridad, ahora no faltan «sin censura”LLM que responderán cualquier pregunta que desee y modelos y plataformas de generación de imágenes de IA que facilitarán crear cualquier imagen no consensuada que los usuarios puedan imaginar.
Sobre el autor
Emanuel Maiberg está interesado en comunidades poco conocidas y procesos que dan forma a la tecnología, los alborotadores y los pequeños problemas. Envíele un correo electrónico a emanuel@404media.co