Um novo estudo da Universidade Stanford acendeu o alerta sobre os limites do raciocínio das Inteligências Artificiais. A pesquisa avaliou 24 modelos de linguagem, incluindo ChatGPT, Claude, DeepSeek e Gemini, e concluiu que nenhum deles é realmente capaz de diferenciar com segurança fato de ficção.
De acordo com o levantamento, divulgado pelo New York Post, os pesquisadores aplicaram 13 mil perguntas para medir a capacidade dos sistemas em distinguir entre fatos, crenças e conhecimentos. O resultado foi preocupante: os modelos apresentaram dificuldades recorrentes em identificar quando uma afirmação era verdadeira, frequentemente confundindo crenças incorretas com verdades.
Os sistemas mais antigos foram os que mais erraram, com taxas de acerto variando entre 71,5% e 84,8%. Já os modelos lançados após maio de 2024, como o GPT-4o, apresentaram desempenho superior, com acertos entre 91,1% e 91,5%. Mesmo assim, os pesquisadores apontam que esse índice ainda não é suficiente para garantir confiabilidade total.
O estudo também revelou um dado curioso sobre o comportamento dos usuários: 77% dos americanos utilizam o ChatGPT como se fosse um buscador, e três em cada dez afirmam confiar mais nele do que em ferramentas tradicionais de pesquisa.
Para os especialistas, esse é o ponto mais preocupante. “O problema não é apenas a IA errar, é o público acreditar cegamente que ela está sempre certa”, alertaram os autores.

