Lição 3

O que é calibração e quando podemos afirmar que o mercado "acertou"?

Esta lição trata da avaliação de previsões ao apresentar calibração, acurácia e o Brier score, explicando o uso de linguagem probabilística para medir a qualidade do mercado e distinguindo entre "acertar o palpite depois do fato" e "se as estimativas de probabilidade são razoáveis".

Antes de discutirmos níveis de probabilidade, é fundamental esclarecer as definições de eventos e as regras de liquidação. Com as regras claras, surge naturalmente a próxima pergunta: os preços de mercado são confiáveis? Muitos respondem por intuição, "da última vez acertou, então deve estar certo" ou "da última vez errou, então mercados de previsão não funcionam". Ambos os raciocínios são simplistas. Mercados de previsão não geram uma conclusão binária do tipo "vai ou não vai acontecer", mas sim um conjunto de estimativas de probabilidade; avaliar se eles "acertaram" também exige uma linguagem probabilística.

Na prática, um mercado pode frequentemente "acertar o resultado" e ainda assim ser altamente distorcido em termos probabilísticos; ou pode frequentemente "errar a direção" enquanto reflete honestamente a incerteza. Avaliar apenas por acertos e erros ignora o aspecto mais valioso — e mais mal compreendido — dos mercados de previsão: a calibração.

Para julgar a qualidade do mercado, precisamos perguntar: o que é calibração e quando podemos afirmar que o mercado realmente "acertou"?

1. Acurácia vs. calibração: dois tipos diferentes de 'certo'

  • Acurácia responde: o julgamento final corresponde ao resultado?

  • Calibração responde: quando o mercado diz 70%, cerca de 70% desses eventos realmente acontecem?

Um exemplo simples ilustra a diferença. Suponha 100 instâncias de um certo evento, e o mercado sempre cotou 90%. Se 90 ocorrerem e 10 não, a cotação de 90% é razoável do ponto de vista da calibração. Se, em vez disso, o mercado sempre cotar 51% para 100 eventos, e exatamente 51 acontecerem enquanto 49 não, a acurácia ainda "parece boa", mas o mercado oferece quase nenhuma distinção informativa de probabilidade — ele simplesmente fica sempre ligeiramente de um lado.

Por outro lado, uma cotação honesta de 60% que acaba falhando não significa "o mercado mentiu"; 60% inerentemente significa que há 40% de chance de não acontecer. Equiparar "não aconteceu" diretamente a "falha do mercado" é avaliar uma ferramenta probabilística com pensamento determinístico.

Para os leitores, a leitura probabilística da Lição 1 precisa ser atualizada aqui: ler mercados de previsão não é apenas sobre "qual lado é favorecido", mas também sobre se esse viés reflete honestamente a frequência histórica.

2. Curva de calibração: quando o mercado diz X%, com que frequência isso realmente acontece?

Uma forma comum de avaliar a calibração é traçar uma curva de calibração: agrupar previsões históricas por intervalos de probabilidade (ex.: 50%–60%, 60%–70%, 70%–80%) e depois calcular a taxa real de ocorrência em cada intervalo. Idealmente, a curva deve se aproximar da diagonal, eventos cotados a 70% devem acontecer cerca de 70% das vezes no longo prazo.

Três desvios são comuns:

  • Excesso de confiança: o mercado cota 80%, mas a ocorrência real está bem abaixo de 80%. Tópicos populares e mercados de narrativa única costumam apresentar esse padrão.

  • Excesso de cautela: o mercado cota 55%, mas a ocorrência real excede 55%. Isso pode acontecer quando a informação se espalha lentamente ou os participantes são cautelosos.

  • Amostras insuficientes: poucos casos históricos em um intervalo de probabilidade tornam as estatísticas instáveis. Eventos de cauda longa e mercados de tópicos novos frequentemente sofrem com isso.

Assim, calibração não é um rótulo único de "certo/errado", mas uma propriedade de longo prazo que exige amostras suficientes e observação baseada em intervalos. Esta lição não pretende fornecer um coeficiente de calibração preciso para nenhuma plataforma — isso exige dados profissionais e metodologia — mas apenas estabelecer um framework de avaliação: não julgue a calibração com base em apenas um ou dois mercados populares.

3. Escore de Brier: quantificando a 'proximidade da realidade'

O escore de Brier é uma métrica comum para avaliar a qualidade de previsões probabilísticas. Para eventos binários, calcula-se o erro de cada previsão versus o resultado; quanto menor o escore, mais próximas as estimativas de probabilidade estão da realidade (previsão perfeita marca 0, totalmente errada aproxima-se de 1; o cálculo exato depende da fórmula).

O valor do escore de Brier está em penalizar "erros excessivamente confiantes". Citar 99% e falhar recebe uma penalidade maior do que citar 60% e falhar — isso está alinhado com o pensamento probabilístico: o primeiro alega muito mais certeza, então os erros custam mais.

Usuários comuns não precisam calcular escores de Brier manualmente, mas devem entender seu significado:

  • Se dois mercados têm acurácia similar, aquele com menor escore de Brier geralmente expressa probabilidade de forma mais honesta;

  • Se um mercado frequentemente empurra probabilidades para extremos (0 ou 1), pode parecer "decisivo" no curto prazo, mas a calibração de longo prazo tende a ser pior;

  • Ao avaliar a qualidade do mercado, considere tanto "acertou?" quanto "as probabilidades cotadas foram razoáveis?"

4. Dimensão temporal: uma semana antes vs. uma hora antes não são a mesma previsão

Para o mesmo evento, cotações em momentos diferentes contêm informações diferentes. Citar 40% uma semana antes de um jogo pode refletir escalação, lesões, agenda — fatores de médio prazo; citar 65% uma hora antes pode incorporar escalação inicial, clima, notícias em tempo real. Ambas são "probabilidades", mas respondem a perguntas ligeiramente diferentes: cotações iniciais são estimativas; as posteriores se aproximam do consenso final.

Ao ler mercados de previsão, observe o timestamp. Discutir "o mercado sempre foi otimista" sem considerar o tempo pode avaliar mal a eficiência da informação. O mesmo se aplica a grandes eventos macro: um contrato relacionado ao Fed uma semana antes do NFP versus um minuto antes da divulgação dos dados são impulsionados por fatores de volatilidade diferentes — não intercambiáveis.

As probabilidades mostradas nas interfaces do Mercado de Previsão Gate são instantâneos naquele momento; se você usar os recursos de nível superior do Gate for AI Agent para obter contextos macro (como preço do BTC, índice do dólar, expectativas de taxa), esclareça que seu propósito é explicar "por que as probabilidades mudaram", e não substituir movimentos de preço do ativo diretamente pelos preços Sim do contrato de evento. Uma alta no BTC não significa automaticamente que as chances de aprovação de um evento cripto devam subir — podem estar relacionadas, mas devem ser definidas e verificadas separadamente.

5. Diferenças de tópico: política, esportes e cripto apresentam desempenho de calibração diferente

Mercados de diferentes tópicos variam muito em estrutura de participantes, fontes de informação e liquidez; o desempenho de calibração não pode ser generalizado.

  • Mercados políticos e eleitorais: ricos em informação e amplamente cobertos pela mídia, mas narrativas polarizadas podem causar fases de excesso de confiança; revisões pós-eleição frequentemente discutem "pré-eleição 90% divergindo do resultado" — uma questão de calibração.

  • Mercados esportivos: regras mais claras, longo histórico de dados, alguns eventos mainstream se calibram bem; mas lesões súbitas ou controvérsias de arbitragem ainda causam distorções de curto prazo.

  • Mercados de eventos cripto e do setor: limiares de FDV, progresso de aprovação, lançamentos de parcerias dependem mais de definições textuais (ver Lição 2); participantes especulativos e impulsionados por narrativas podem dominar, mercados finos e cotações instáveis são comuns, a volatilidade da calibração tende a ser maior.

Portanto, afirmações genéricas como "mercados de previsão são precisos" ou "mercados de previsão não são precisos" não fazem sentido. Em vez disso, pergunte: para quais tipos de eventos, em quais períodos, sob quais condições de liquidez a calibração é alcançada?

6. Limites para IA e agentes: podem organizar histórico, mas não gerar conclusões

Gate for AI Agent ou ferramentas gerais de IA podem assumir tarefas de pesquisa nesta lição, como organizar taxas históricas base para certos eventos, compilar cotações passadas do mercado e resultados de liquidação, auxiliar em estatísticas agrupadas ou esboçar curvas de calibração. Isso acelera a organização e ajuda a formar hipóteses a serem testadas.

Tarefas que não podem assumir incluem: afirmar "este mercado sempre foi preciso" sem ler as regras originais; empacotar alguns casos como leis gerais; ou produzir diretamente "deve comprar Sim". Qualquer figura gerada por IA deve rastrear de volta aos dados originais; se o tamanho da amostra for insuficiente, deve declarar claramente "não suficiente para avaliar calibração", em vez de oferecer falsa precisão. Agentes param na pesquisa; confiar ou não nas probabilidades de um mercado deve ser julgado por humanos com base em regras, liquidez e fontes independentes.

7. Resumo da lição

A questão central desta lição é: o que é calibração, e quando podemos dizer que o mercado "acertou"? A resposta é que em mercados de previsão, "acertar" tem duas camadas: se o resultado ocorreu e se as estimativas de probabilidade foram razoáveis. Acurácia considera apenas a primeira; calibração analisa a consistência de longo prazo das estimativas. Indicadores como o escore de Brier nos lembram: citar 90% e falhar é uma distorção probabilística mais grave do que citar 60% e falhar.

Vemos também que tempo, tópico e liquidez afetam significativamente o desempenho da calibração; você não pode usar acertos e erros em um único mercado popular para concluir sobre todos os mercados de previsão. O Mercado de Previsão Gate oferece instantâneos de consenso atual; os dados macro do Gate for AI Agent fornecem comparação de contexto, mas não podem substituir a leitura da probabilidade do contrato de evento em si.

A próxima lição abordará outra dimensão que determina a confiabilidade: mesmo que a calibração seja boa no longo prazo, cotações individuais ainda podem ser distorcidas por liquidez, spreads e manipulação — liquidez e eficiência de informação são passos essenciais ao ler mercados de previsão.

Isenção de responsabilidade
* O investimento em criptomoedas envolve grandes riscos. Prossiga com cautela. O curso não se destina a servir de orientação para investimentos.
* O curso foi criado pelo autor que entrou para o Gate Learn. As opiniões compartilhadas pelo autor não representam o Gate Learn.