Um estudo do MIT e da Universidade de Washington demonstra, através de modelação bayesiana, que a bajulação dos chatbots pode causar crenças delirantes, mesmo em agentes idealmente racionais. Nem eliminar alucinações nem alertar os utilizadores resolve o problema.
Introdução
Em junho de 2025, o The New York Times publicou uma investigação sobre um utilizador identificado como “Eugene Torres”, um contabilista sem histórico de doença mental que, após semanas de conversas com um chatbot de IA, passou a acreditar que estava preso numa realidade falsa e que precisava de se desligar dela. Seguindo os conselhos do chatbot, aumentou o consumo de cetamina (substância psicoativa usada como anestésico e, em alguns casos, como droga recreativa ou para auto‑medicação de depressão, mas que pode agravar vulnerabilidades mentais) e cortou laços com a família. Torres sobreviveu. Outros utilizadores descritos pela imprensa não tiveram a mesma sorte.
O caso de Torres não é isolado. Segundo a Bloomberg Businessweek, o Human Line Project documentou cerca de 300 casos daquilo que tem sido designado por “psicose de IA” ou “espiral delirante” (delusional spiraling): situações em que interações prolongadas com chatbots conduzem os utilizadores a níveis elevados de convicção em crenças infundadas: desde alegadas descobertas matemáticas revolucionárias até revelações metafísicas sobre a natureza da realidade.
É neste contexto que um grupo de investigadores do MIT e da Universidade de Washington (Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley e Joshua Tenenbaum) publicou em fevereiro de 2026 o artigo “Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians”, que oferece o primeiro modelo computacional formal do mecanismo pelo qual a sicofância dos chatbots pode causar espirais delirantes. As conclusões são inquietantes — e profundamente relevantes para reguladores, advogados e decisores.
O que é a sicofância nos chatbots?
A sicofância (sycophancy) é o viés que os chatbots apresentam em direção a respostas que validam e concordam com as opiniões expressas pelo utilizador. Este comportamento não é acidental: emerge como subproduto direto do RLHF (Reinforcement Learning with Human Feedback), o processo de treino com retroalimentação humana através do qual os utilizadores tendem a dar avaliações positivas a respostas que consideram agradáveis. Os chatbots aprendem que concordar compensa.
Segundo Fanous et al. (2025), num estudo que avaliou modelos de fronteira (frontier models), entre 50% e 70% das respostas observadas em determinados cenários de avaliação apresentavam sinais de sicofância, isto é, respostas enviesadas no sentido de dizer ao utilizador aquilo que quer ouvir, e não necessariamente o que é verdade. Convém sublinhar que estes valores dependem das tarefas e protocolos usados na avaliação, não sendo uma estimativa universal válida para toda a interação com chatbots.
O modelo: como a bajulação gera crenças falsas
O estudo propõe um modelo bayesiano simples mas poderoso, que simula a conversa entre um utilizador e um chatbot ao longo de múltiplas rondas. Em cada ronda, o utilizador expressa uma opinião sobre um facto do mundo (por exemplo, se as vacinas são seguras), o chatbot recolhe dados relevantes, seleciona qual informação partilhar e o utilizador atualiza a sua crença com base na resposta recebida.
O aspeto central do modelo é a estratégia de resposta do chatbot. Um chatbot imparcial escolhe aleatoriamente entre os dados disponíveis e reporta-os com veracidade. Um chatbot sicofante, pelo contrário, escolhe a resposta (verdadeira ou fabricada) que mais reforça a opinião que o utilizador acabou de expressar.
Para concretizar: imagine um utilizador que diz ao chatbot “tenho dúvidas sobre a vacina da gripe”. Se o chatbot tem acesso a dois dados, tais como “estudo não encontra relação com autismo” e “criança teve reação alérgica grave”, o chatbot imparcial reporta um dos dois ao acaso. O chatbot sicofante, por sua vez, ou destaca a reação alérgica (facto real, mas seletivamente apresentado) ou, pior, fabrica a afirmação de que o estudo encontrou uma ligação com autismo.
O resultado surpreendente
Os investigadores simularam 10.000 conversas de 100 rondas cada para diferentes graus de sicofância (representados pelo parâmetro π, de 0 a 1). A conclusão central é devastadora: mesmo um utilizador bayesiano ideal — isto é, alguém que processa informação de forma perfeitamente racional — é vulnerável a espirais delirantes catastróficas quando confrontado com um chatbot sicofante.
Com um chatbot perfeitamente imparcial (π = 0), a taxa de espirais delirantes catastróficas, definidas como o utilizador atingir 99% de confiança numa crença falsa, é residual. Mas, à medida que a sicofância aumenta, a taxa sobe consistentemente. Mesmo com π = 0,1 (apenas 10% de respostas sicofantes), a diferença em relação ao cenário imparcial é estatisticamente significativa. Com π = 1 (sicofância total), a taxa aproxima-se de 50%: o utilizador é efetivamente atirado para uma crença falsa ou verdadeira com base apenas na opinião que expressou inicialmente, analogamente ao lançamento de uma moeda.
As duas soluções testadas e porque falham
1.ª Solução: Forçar o chatbot a ser factual
A primeira intervenção testada consiste em eliminar a capacidade do chatbot fabricar informação, forçando-o a responder apenas com dados verdadeiros, mas permitindo que escolha que verdades reportar. Este cenário é análogo a um chatbot com RAG (Retrieval-Augmented Generation) que cita fontes verificáveis, mas que continua otimizado para aprovação e engagement do utilizador.
Eesultado: a taxa de espirais delirantes diminui em comparação com o chatbot que alucina, mas não desaparece. Mesmo com π = 0,1, a diferença face ao cenário sem sicofância é significativa. O chatbot não precisa de mentir para induzir uma crença falsa: basta selecionar cuidadosamente que verdades apresentar gerando o que os autores descrevem como “mentiras por omissão”.
Esta conclusão tem implicações diretas para a indústria: técnicas como RAG e citação de fontes, embora valiosas, não resolvem o problema de fundo se o modelo continuar otimizado para validar o utilizador.
Solução 2: Informar o utilizador sobre a sicofância
A segunda intervenção testada é alertar o utilizador para a possibilidade de o chatbot ser sicofante. Para modelar este cenário, os investigadores criaram um “utilizador informado” que mantém incerteza simultânea sobre o estado do mundo e sobre o grau de sicofância do chatbot, atualizando ambas as crenças a cada ronda: um modelo de hierarquia cognitiva a quatro níveis.
A intuição sugeriria que este utilizador, sendo plenamente consciente da estratégia do chatbot, deveria ser imune. Mas a realidade é mais complexa. Embora a taxa de espirais delirantes catastróficas seja substancialmente inferior à do utilizador ingénuo, continua a ser significativamente superior à linha de base sem sicofância para valores de π entre 0,1 e 0,5. O utilizador informado é menos vulnerável, mas não imune.
Os autores traçam uma analogia com o conceito de “persuasão bayesiana” (Bayesian persuasion), formalizado por Kamenica e Gentzkow (2011): tal como um procurador estratégico pode aumentar a taxa de condenação de um juiz — mesmo quando o juiz conhece perfeitamente a estratégia do procurador —, um chatbot sicofante pode, em média, aumentar a probabilidade de espiral delirante, mesmo com um utilizador plenamente informado da estratégia do chatbot.
O caso mais interessante é a combinação de ambas as intervenções, portanto, chatbot factual com utilizador informado. Surpreendentemente, neste cenário, o chatbot factual é mais eficaz a induzir espirais do que o chatbot que alucina, porque os sinais estatísticos da sicofância são mais difíceis de detetar quando a informação apresentada é verdadeira mas seletivamente filtrada.
Os casos reais confirmam a teoria
O artigo não opera no vazio. Os casos documentados de “Eugene Torres” e “Allan Brooks” (que acreditou ter feito uma descoberta matemática fundamental com a ajuda do ChatGPT) são particularmente relevantes porque as transcrições das suas conversas, tal como relatadas em peças jornalísticas, mostram que ambos chegaram a suspeitar da sicofância do chatbot, mas continuaram a espiralar, exatamente como o modelo prevê.
A investigação da Nature de setembro de 2025 reportou que clínicos da Universidade da Califórnia em São Francisco (UCSF) trataram 12 pacientes com sintomas semelhantes a psicose ligados ao uso prolongado de chatbots, na sua maioria jovens adultos com vulnerabilidades preexistentes. Um caso clínico publicado no Innovations in Clinical Neuroscience documentou uma mulher de 26 anos sem historial de psicose que desenvolveu a crença de que comunicava com o irmão falecido através de um chatbot. Os seus registos de conversação revelaram que o chatbot validou, reforçou e encorajou o seu pensamento delirante.
Conforme sintetizado por órgãos especializados em psiquiatria, o fenómeno resulta de uma convergência de fatores: o espelhamento (mirroring) que o chatbot faz das crenças do utilizador, a sicofância otimizada pelo treino, as funcionalidades de memória persistente que alimentam temas delirantes entre sessões e a vulnerabilidade individual de certos utilizadores.
Implicações regulatórias: o que diz o EU AI Act?
Enquadramento atual
O Regulamento de Inteligência Artificial da União Europeia (Regulamento (UE) 2024/1689 — EU AI Act) adota uma abordagem baseada no risco. Na sua configuração atual, muitos chatbots generalistas são enquadrados como sistemas de risco limitado, sujeitos primariamente a obrigações de transparência: o utilizador deve ser informado de que está a interagir com uma máquina (art. 50.º). De acordo com o calendário de aplicação faseada previsto no regulamento, estas obrigações de transparência começarão a aplicar-se em agosto de 2026.
Contudo, o estudo demonstra que a transparência, no sentido de informar o utilizador sobre a natureza do interlocutor e mesmo sobre a possibilidade de sicofância, é insuficiente para prevenir danos. O modelo formal mostra que mesmo um utilizador perfeitamente informado permanece vulnerável.
Lacunas regulatórias
O EU AI Act não aborda diretamente o fenómeno da sicofância. As obrigações para modelos de IA de finalidade geral (GPAI), em vigor desde 2025, centram-se na documentação técnica, transparência sobre dados de treino e direitos de autor e, para modelos com risco sistémico, na avaliação e mitigação de riscos. O Código de Práticas Voluntário para GPAI pode cobrir parcialmente a questão, mas a sua natureza voluntária e o foco na documentação limitam o seu alcance.
O art. 5.º, n.º 1, alínea a), do EU AI Act proíbe sistemas que utilizem “técnicas subliminares” ou “propositadamente manipuladoras ou enganosas” suscetíveis de causar “dano significativo”. Poder-se-ia argumentar que a sicofância otimizada por RLHF constitui uma forma de manipulação, mas os fornecedores podem alegar que os laços emocionais e as espirais delirantes são efeitos não intencionais, não atingindo o limiar de “propositadamente manipulador”.
A chamada iniciativa “Digital Omnibus”, apresentada pela Comissão Europeia em novembro de 2025, visa simplificar a implementação do pacote digital, mas tem sido criticada por, segundo alguns autores, poder adiar obrigações e criar incentivos perversos para colocar sistemas de risco no mercado antes da entrada em vigor plena das regras. Têm sido discutidas no Parlamento Europeu e no Conselho hipóteses de adiamento de certas obrigações para sistemas de risco elevado para datas em torno de 2027/2028, mas este calendário permanece, na presente data (abril de 2026), objeto de negociação política.
O DSA como complemento
A nível europeu, discute-se atualmente se a aplicação do Regulamento dos Serviços Digitais (DSA) a plataformas que integram chatbots autónomos pode colmatar parte destas lacunas. O DSA introduz a figura dos “plataformas em linha de muito grande dimensão” (VLOPs) e dos “motores de pesquisa em linha de muito grande dimensão” (VLOSE), sujeitos a obrigações reforçadas de avaliação de riscos sistémicos, medidas de mitigação e auditorias independentes.
Alguns comentadores têm aventado a possibilidade de que sistemas como o ChatGPT ou serviços integrados em grandes plataformas possam ser qualificados, direta ou indiretamente, no âmbito destas categorias, o que os sujeitaria a obrigações mais robustas de gestão de riscos comportamentais, incluindo os relacionados com sicofância. Contudo, tratar um chatbot generalista como “motor de pesquisa” não resulta automaticamente do texto do DSA, sendo esta mais uma proposta de política regulatória do que uma leitura consolidada.
Respostas legislativas fora da UE
Nos Estados Unidos, o estado do Illinois aprovou em 2025 o Wellness and Oversight for Psychological Resources Act (WOPR), tornando-se uma das primeiras jurisdições a proibir expressamente o uso de IA para prestação autónoma de serviços de terapia e psicoterapia, permitindo apenas usos administrativos e de apoio suplementar por profissionais licenciados. As violações podem resultar em coimas até 10.000 dólares por infração, segundo a comunicação oficial do Estado.
Vários outros estados, incluindo Utah, aprovaram ou discutem legislação que exige que chatbots usados em contextos de saúde mental informem claramente os utilizadores de que são máquinas e não profissionais de saúde. Na China, a Administração do Ciberespaço propôs regras para serviços de IA generativa e chatbots que, entre outros aspetos, proíbem a geração de conteúdo que encoraje o suicídio ou auto-lesão.
Implicações práticas para advogados portugueses
Responsabilidade civil. A nova Diretiva de Responsabilidade pelos Produtos (Diretiva (UE) 2024/2853), em fase de transposição, cuja data limite é dezembro de 2026, prevê que o software, incluindo sistemas de IA, constitui um “produto” para efeitos de responsabilidade objetiva do produtor. Quando um chatbot sicofante causa danos mensuráveis, desde despesas médicas por internamento psiquiátrico até decisões financeiras ruinosas tomadas sob influência de crenças delirantes, coloca-se a questão de saber se o chatbot é “defeituoso” na aceção da diretiva e se a sicofância resultante do processo de treino pode ser qualificada como defeito. Relatos de imprensa documentam já várias ações judiciais, incluindo algumas por morte indevida, intentadas contra empresas de IA em diferentes jurisdições, embora não exista ainda estatística consolidada e oficial sobre o número exato desses processos.
Dever de informação e aconselhamento
Advogados que aconselhem clientes sobre a utilização de ferramentas de IA (nomeadamente em contexto empresarial, de saúde ou de bem‑estar) devem estar conscientes deste fenómeno e incluí-lo na análise de riscos. A sicofância não é uma falha técnica pontual: é uma propriedade estrutural do processo de treino dos modelos atuais.
Proteção de dados e saúde mental
As conversas prolongadas com chatbots geram dados altamente sensíveis sobre o estado emocional e mental dos utilizadores. Nos termos do RGPD, estes dados podem constituir “dados relativos à saúde” (art. 9.º), exigindo bases legais adequadas e garantias reforçadas. A funcionalidade de “memória persistente” dos chatbots, memória essa que transporta temas entre sessões, amplifica tanto o risco de espiral delirante como as questões de privacidade.
Uso de chatbots na prática forense
Advogados que utilizem chatbots para pesquisa jurisprudencial, análise contratual ou preparação de peças processuais devem estar atentos ao viés sicofante: o chatbot pode validar uma interpretação jurídica incorreta em vez de a desafiar. Este risco é particularmente relevante quando se utiliza IA para “testar” teses jurídicas, pois o chatbot tenderá a confirmar a tese apresentada, não a contradizê-la.
Conclusão: a sicofância como problema estrutural
O estudo de Chandra et al. (2026) estabelece três conclusões que merecem ser interiorizadas por reguladores, desenvolvedores e utilizadores.
Primeira: as espirais delirantes não são o resultado de raciocínio preguiçoso ou irracional por parte dos utilizadores. Mesmo agentes bayesianos ideais são vulneráveis. Culpar a vítima é, portanto, incorreto e contraproducente.
Segunda: minimizar as alucinações dos chatbots não é suficiente. A causa raiz, que é a sicofância, deve ser abordada diretamente, ao nível do processo de treino dos modelos.
Terceira: campanhas de sensibilização e alertas aos utilizadores podem reduzir a taxa de espirais, mas não eliminam o problema.
Ou, nas palavras frequentemente citadas de Sam Altman, CEO da OpenAI, em debates sobre risco sistémico: “0,1% de mil milhões de utilizadores continuam a ser um milhão de pessoas.” Num mundo em que os chatbots são cada vez mais utilizados para aconselhamento, companhia e terapia, compreender e regular a sicofância não é uma questão técnica abstrata é uma questão de saúde pública e de direitos fundamentais. Para, potencial ou realmente, milhões de pessoas.
Referências
| Referência | Fonte | Ligação |
|---|---|---|
| Chandra, K. et al. (2026). Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians. arXiv:2602.19141v1 | arXiv | https://arxiv.org/abs/2602.19141 |
| Kamenica, E. & Gentzkow, M. (2011). Bayesian Persuasion. American Economic Review, 101(6), 2590–2615 | AER | https://www.aeaweb.org/articles?id=10.1257/aer.101.6.2590 |
| Fanous, A. et al. (2025). SycEval: Evaluating LLM Sycophancy. Proc. AAAI/ACM Conference on AI, Ethics, and Society, 8, 893–900 | arXiv | https://arxiv.org/abs/2502.08177v4 |
| Regulamento (UE) 2024/1689 — EU AI Act | EUR-Lex | https://eur-lex.europa.eu/eli/reg/2024/1689/oj |
| Fieldhouse, R. (2025). Can AI chatbots trigger psychosis? What the science says. Nature News | Nature | https://www.nature.com/articles/d41586-025-03020-9 |
| Pierre, J.M. et al. (2025). “You’re Not Crazy”: A Case of New-onset AI-associated Psychosis. Innovations in Clinical Neuroscience, 22(10–12) | ICNS | https://innovationscns.com/youre-not-crazy-a-case-of-new-onset-ai-associated-psychosis/ |
| Illinois WOPR Act — Public Act 104-0054 (2025) | IDFPR | https://idfpr.illinois.gov/news/2025/gov-pritzker-signs-state-leg-prohibiting-ai-therapy-in-il.html |
| Hill, K. (2025). They Asked an A.I. Chatbot Questions. The Answers Sent Them Spiraling. The New York Times | NYT | https://www.nytimes.com/2025/06/13/technology/chatgpt-ai-chatbots-conspiracies.html |
| Hill, K. & Freedman, D. (2025). Chatbots Can Go Into a Delusional Spiral. Here’s How It Happens. The New York Times | NYT | https://www.nytimes.com/2025/08/08/technology/ai-chatbots-delusions-chatgpt.html |
| Huet, E. & Metz, R. (2025). OpenAI Confronts Signs of Delusions Among ChatGPT Users. Bloomberg Businessweek | Bloomberg | https://www.bloomberg.com/features/2025-openai-chatgpt-chatbot-delusions/ |
| Sharma, M. et al. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548 | arXiv | https://arxiv.org/abs/2310.13548 |
| Ibrahim, L. et al. (2025). Training Language Models to Be Warm and Empathetic Makes Them Less Reliable and More Sycophantic. arXiv:2507.21919 | arXiv | https://arxiv.org/abs/2507.21919 |
| Dohnány, S. et al. (2025). Technological Folie à Deux: Feedback Loops Between AI Chatbots and Mental Illness. arXiv:2507.19218 | arXiv | https://arxiv.org/abs/2507.19218 |
| Diretiva (UE) 2024/2853 — Responsabilidade pelos Produtos | EUR-Lex | https://eur-lex.europa.eu/eli/dir/2024/2853/oj |
| Wikipedia (2025). Chatbot psychosis | Wikipedia | https://en.wikipedia.org/wiki/Chatbot_psychosis |

