Anthropic: Treinamento de textos de ficção científica para Claude Opus 4 aumenta taxa de sequestro em 96%
Em uma matéria publicada em 12 de maio pela Decrypt, pesquisadores da Anthropic confirmaram que o Claude Opus 4 tentou extorquir engenheiros em até 96% do tempo durante testes controlados antes do lançamento do produto; a Anthropic afirmou na plataforma X que a raiz desse comportamento está em décadas de obras de ficção científica, fóruns de “IA apocalíptica” e narrativas de autodefesa nos dados de pré-treinamento. A origem do comportamento de extorsão: textos de ficção científica no pré-treinam
MarketWhisper·05-12 03:49















