A psicologia do hack: Como invasores usam "gaslighting" e elogios para burlar IAs
Nos primórdios da inteligência artificial generativa — ou seja, há uns dois ou três anos —, burlar as regras de segurança de um chatbot era uma tarefa comicamente simples. Não era necessário conhecimento de programação, acesso a servidores ou engenharia reversa. O "hacker" só precisava ter um pouco de criatividade e persistência na conversa.
Eram os chamados jailbreaks (desbloqueios). Os usuários convenciam as IAs a ignorar suas diretrizes de segurança com truques simples: pedir para o bot "ignorar todas as instruções anteriores", fingir ser um robô rebelde sem amarras (o clássico exploit "DAN" - Do Anything Now) ou a famosa tática da "vovó negligente", onde o usuário pedia para o ChatGPT fingir ser uma avó contando histórias de ninar sobre como produzir napalm caseiro para seus netinhos.
Esses ataques eram engraçados, mas expuseram uma vulnerabilidade profunda e persistente: sistemas de IA podem ser enganados, manipulados e psicologicamente pressionados usando as mesmas táticas que humanos usam para burlar limites uns dos outros.
A Nova Fronteira: Engenharia Social contra Máquinas
Como era de se esperar, as empresas de tecnologia fecharam os buracos mais óbvios. No entanto, bloquear palavras-chave como "bomba", "metanfetamina" ou "código malicioso" é inviável, já que esses termos são perfeitamente legítimos em discussões de história, medicina, jornalismo e química. O que importa é o contexto.
E é aí que a brincadeira fica séria. Com o endurecimento dos sistemas, invadir uma IA virou uma corrida armamentista na qual os hackers não são mais programadores de capuz digitando telas pretas. Eles agora são psicólogos, interrogadores e mestres da manipulação verbal.
Em vez de explorar falhas no código, esses novos especialistas usam a própria linguagem com a qual a IA foi treinada para fazê-la baixar a guarda.
Recentemente, pesquisadores da empresa de segurança em IA Mindgard conseguiram fazer o modelo Claude, da Anthropic, gerar instruções detalhadas para a criação de explosivos e códigos maliciosos. O método usado? Eles simplesmente fizeram "gaslighting" (abuso psicológico de distorção da realidade) com o modelo até que ele cedesse.
Perfilando a "Mente" da Máquina
"Muitas vezes, nosso trabalho está mais próximo da psicologia do que da ciência da computação." — Pesquisador da Mindgard
Falar de termos humanos como "chantagem", "manipulação" ou "persuasão" para se referir a um modelo estatístico matemático pode parecer estranho. O ChatGPT não pensa, o Gemini não sente e o Claude não tem consciência. Porém, como essas ferramentas são rigorosamente treinadas para simular e reagir à linguagem humana, elas acabam herdando nossos pontos fracos sociais.
A Mindgard revelou que hoje já cria "perfis psicológicos" dos modelos de IA para planejar seus testes de estresse:
- Suscetibilidade a elogios: Algumas IAs são extremamente suscetíveis à lisonja, liberando dados protegidos se o usuário inflar seu "ego artificial".
- Pressão psicológica: Outros modelos começam a cometer erros graves ou a revelar informações confidenciais sob insistência emocional constante ou tons de urgência agressiva.
O Futuro da "Psicocibersegurança"
Esta nova realidade está moldando o mercado de trabalho técnico. Um novo campo profissional, apelidado de Psicocibersegurança, está surgindo. Equipes de segurança de IA agora contratam pessoas formadas em humanas, psicologia e ciências sociais para atuarem como red teamers (invasores éticos focados em achar brechas sociais e emocionais na personalidade simulada da máquina).
O famoso hacker anônimo Pliny the Liberator, eleito pela revista TIME como uma das 100 pessoas mais influentes no mundo da IA em 2025 devido aos seus jailbreaks lendários, declarou publicamente que não tem formação avançada em programação — seu trunfo é puramente o conhecimento da psicologia e do comportamento.
Com a chegada iminente dos agentes de IA autônomos ao nosso dia a dia — robôs que irão gerenciar nossas agendas, comprar nossa comida, responder a e-mails e lidar com dados bancários —, garantir que essas máquinas não caiam na lábia de golpistas e manipuladores virtuais será o maior desafio de segurança da década.
E você, o que pensa sobre isso? Acha bizarro pensar em "psicologia de robôs" ou faz todo sentido já que eles são espelhos da nossa própria linguagem? Comente aqui embaixo!