Nos últimos dois dias, fiz um teste específico com um projeto real.
Não é LeetCode, nem um demo de arquivo único, mas um projeto SaaS que já roda há dois anos.
Cerca de 48 arquivos principais, arquitetura híbrida de front-end e back-end, um típico projeto com bagagem histórica.
A tarefa de teste foi bem simples: extrair a lógica de validação de permissões dispersa em vários módulos para uma camada intermediária unificada, garantindo compatibilidade com interfaces antigas.
O mais difícil nessa tarefa na verdade não é escrever o código, mas manter o contexto continuamente.
O modelo precisa entender a lógica antiga, descobrir dependências, modificar múltiplos arquivos, atualizar a cadeia de chamadas, e depois verificar se não esqueceu de nada.
Enviei o mesmo prompt para Claude Fable 5, Opus 4.8, GPT-5.5 e Gemini 3.1 Pro.
Todo o processo foi feito no modo PK do ZenMux, pois permite observar simultaneamente a saída, a latência e o consumo de tokens.
O resultado foi interessante: GPT-5.5 foi o mais rápido a começar a trabalhar, mas a partir do arquivo 11, começou a apresentar um claro deslocamento de contexto.
Gemini 3.1 Pro é muito bom em explicar, mas suas propostas de modificação são mais conservadoras.
Opus 4.8 ainda tem uma forte capacidade de compreensão da arquitetura, mas perdeu duas verificações de permissões de borda ao rastrear dependências entre módulos.
Fable 5 foi o único modelo que ativamente revisou sua própria solução.
Ele não só gerou um plano de modificação, como também listou pontos de risco potenciais, e depois reescaneou a cadeia de chamadas para verificar.
Houve até uma ocasião em que o modelo inicialmente afirmou que a tarefa estava concluída, mas depois percebeu uma omissão, e ativamente reverteu a conclusão anterior para corrigir.
Isso na verdade é o que mais me impressiona, porque na engenharia real, o mais caro nunca é o modelo escrever código errado, mas o modelo achar que fez certo.
A equipe oficial sempre destaca a auto-verificação do Fable 5.
Eu achava que era só uma estratégia de marketing, mas nos testes reais, essa capacidade realmente existe, e seu valor em tarefas complexas é muito mais evidente do que os números de benchmark sugerem.
Claro que há um custo real: o tempo de resposta médio do Fable 5 é claramente maior, às vezes dá para sentir que ele está pensando.
Para tarefas simples de CRUD ou scripts comuns, eu não escolheria ele.
Mas para tarefas que exigem compreensão contínua de dezenas de arquivos e manutenção de raciocínio em cadeia longa, ele realmente me deixou com a impressão mais forte.
Minha conclusão é simples: Fable 5 não é um gerador de código mais poderoso, mas sim um colaborador de engenharia mais confiável.
Por isso, cada vez mais pessoas estão usando-o como orquestrador em fluxos de trabalho de agentes, e não apenas como um modelo de codificação.
Se você também quer reproduzir um teste semelhante, o ZenMux recentemente integrou o Fable 5, e está promovendo uma campanha de recarga PAYG por uma semana com bônus.
Carregue 20 dólares e ganhe 10 dólares, carregue 50 dólares e ganhe 30 dólares.
O mais importante: sem limite de RPM, sem limitação de fluxo, e sem precisar solicitar limites diferentes de fornecedores, um único conta pode usar mais de 200 modelos simultaneamente para avaliações cruzadas.
Para quem quer testar seriamente as diferenças entre Fable 5, Opus 4.8 e GPT-5.5, o nível de dificuldade realmente caiu bastante.
Link da campanha:
Não perca a chance de experimentar o Claude Fable 5 na primeira oportunidade.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
MyGateTradeStory
34,81K Popularidade
#
USMayCPIHitsThreeYearHigh
314,04K Popularidade
#
IsraelStrikesIranBTCPlunges
57,21K Popularidade
#
PredictWorldCupWin40000U
719,11K Popularidade
#
USIranConflictEscalates
692,06K Popularidade

Fixado

Claude Fable 5 afinal é muito mais forte do que Opus 4.8?

Tópicos em destaque

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

PredictWorldCupWin40000U

USIranConflictEscalates

Fixado