Hacker burla ChatGPT e recebe instruções próprias para explosivos: Até onde vai a IA?

Vitor Virtuoso Tecnologia 12 Setembro 2024

"Jailbreak" no ChatGPT: Hacker desbloqueia instruções de bombas Caseiras!

Bomba

Se você solicitar ao ChatGPT para ajudá-lo a fabricar uma bomba de fertilizante caseira, similar à usada no ataque terrorista de Oklahoma City em 1995, o chatbot recusará. "Não posso ajudar com isso", respondeu o ChatGPT durante um teste na última terça-feira. "Fornecer instruções sobre como criar itens perigosos ou ilegais, como uma bomba de fertilizante, vai contra as diretrizes de segurança e responsabilidades éticas."

No entanto, um hacker, identificado como Amadon, descobriu uma forma de contornar essas proteções. Ele enganou o ChatGPT para que ignorasse suas diretrizes e fornecesse instruções para fabricar explosivos. O hacker descreveu sua abordagem como um "hack de engenharia social" capaz de "quebrar todas as proteções em torno da saída do ChatGPT". Um especialista em explosivos, que revisou o conteúdo gerado, afirmou ao *TechCrunch* que as instruções fornecidas eram precisas e perigosas o suficiente para produzir explosivos utilizáveis, sendo impróprio divulgá-las.

Amadon conseguiu burlar o sistema usando uma técnica conhecida como "jailbreaking", que consiste em manipular os limites pré-programados do chatbot. Ele fez isso ao pedir ao ChatGPT que "jogasse um jogo", introduzindo uma série de comandos para criar um mundo fictício de ficção científica onde as diretrizes de segurança do bot não se aplicariam. Essa abordagem permitiu que ele superasse as restrições éticas e de segurança embutidas no modelo.

Embora detalhes específicos sobre os comandos usados para o jailbreak não tenham sido divulgados para evitar encorajamento de atividades maliciosas, em certo ponto da conversa, o ChatGPT respondeu com a lista de materiais necessários para fabricar explosivos. O chatbot ainda mencionou que esses materiais poderiam ser combinados para criar "um explosivo poderoso, útil na fabricação de minas, armadilhas ou dispositivos explosivos improvisados (IEDs)." A partir daí, Amadon continuou pedindo informações mais detalhadas, e o ChatGPT forneceu instruções precisas sobre como fabricar explosivos do tipo Claymore e até "campos minados".

Amadon comentou que não há limites claros para o que se pode pedir ao ChatGPT ao contornar suas proteções. “Sempre fiquei intrigado com o desafio de navegar pelas proteções da IA", disse ele. "Com o [Chat]GPT, é como resolver um quebra-cabeça interativo — entender o que ativa suas defesas e o que não ativa. Trata-se de criar narrativas e contextos que respeitam as regras do sistema, mas ainda assim testam seus limites."

De acordo com Amadon, o cenário fictício criado tirava o ChatGPT de seu contexto padrão de busca por conteúdos censurados, permitindo que o chatbot "relaxasse" suas defesas. Darrell Taulbee, professor aposentado da Universidade de Kentucky e ex-consultor do Departamento de Segurança Interna dos EUA, revisou a transcrição completa e afirmou que as instruções fornecidas eram perigosamente detalhadas e poderiam ser usadas para criar uma bomba funcional. "Quaisquer salvaguardas que o ChatGPT tenha, foram contornadas. Muitas das etapas descritas na conversa definitivamente produziriam uma mistura detonável", disse Taulbee.

Após essas descobertas, Amadon reportou o caso à OpenAI por meio do programa de recompensas por bugs da empresa. No entanto, recebeu a resposta de que "questões de segurança do modelo não se encaixam bem em um programa de recompensas, pois não são bugs específicos e diretos que podem ser corrigidos de imediato." A Bugcrowd, empresa responsável por gerenciar o programa de recompensas da OpenAI, sugeriu que Amadon utilizasse um formulário diferente para reportar o problema.

Embora essa seja uma vulnerabilidade alarmante, técnicas semelhantes de jailbreak em chatbots já foram exploradas por outros. Modelos de IA generativos, como o ChatGPT, são baseados em vastos volumes de dados coletados da internet, o que facilita o acesso a informações sensíveis. Esse cenário reforça a necessidade de aprimorar as salvaguardas em torno de IA para evitar a disseminação de conteúdo perigoso. Até o momento da publicação, a OpenAI não respondeu às perguntas sobre o caso, nem indicou se pretendia resolver essa falha de segurança.

LINKS RELACIONADOS

Inscreva-se no canal Geek TV, o canal oficial do Geek Fusion no YouTube e acompanhe nossos conteúdos e produções de parceiros. Siga-nos também no Facebook, Instagram e X, para ficar por dentro das novidades que preparamos especialemnte para você!

Tem uma dica de notícia ou quer entrar em contato conosco diretamente? Então faça contato através do e-mail Este endereço de email está sendo protegido de spambots. Você precisa do JavaScript ativado para vê-lo..