Leçon 2

Données et prompts—structure d’entrée et discipline de validation

Ce chapitre explique comment structurer les données transmises à l’IA selon trois axes : les sources d’information, l’horizon temporel et les contraintes de prompt, dans le but de limiter la perturbation des décisions de trading par les hallucinations et les biais de survie.

1. Point de départ : la qualité des résultats dépend de la structure des entrées

La leçon 1 a défini six positions où l'IA s'inscrit dans le workflow de trading, l'organisation de l'information étant au premier plan. Si les résumés sont inexacts, les dates mélangées ou les sources introuvables, la génération d'hypothèses, les discussions de backtesting et les listes de contrôle des risques ne feront qu'amplifier les biais initiaux. Par conséquent, la leçon 2 ne privilégie pas les techniques pour « poser de meilleures questions », mais aborde plutôt la discipline structurelle requise au stade de l'entrée, afin que les résultats du modèle soient traités par défaut comme sujets à vérification, plutôt que comme des faits établis.

Dans les contextes de trading, les hallucinations ne signifient généralement pas que le modèle fabrique délibérément, mais qu'il génère un contenu fluide et confiant qui ne peut être rattaché à des sources primaires vérifiables. Les formes courantes incluent : inventer des annonces ou des liens, confondre la capitalisation boursière avec l'offre en circulation, appliquer des données obsolètes à des problèmes actuels, utiliser des phrases comme « les données on-chain montrent » sans fournir d'adresses, de fenêtres temporelles ou de normes statistiques. La solution n'est pas de rejeter l'IA en bloc, mais de spécifier le niveau de source, les limites temporelles et les étapes de validation pour chaque élément d'information entrant dans la chaîne de décision.

2. Classement des sources : construire un cadre de classification actionnable

Avant de soumettre des documents à l'IA, il est conseillé de classer les sources d'information et d'exiger que le modèle étiquette chaque point clé par son grade dans le prompt. Le but du classement n'est pas le formalisme, mais de clarifier quel contenu peut être énoncé comme un fait et lequel ne peut servir que d'indice ou de jugement non vérifié.

  • Sources primaires : incluent les sites web officiels des projets, les enregistrements des versions GitHub, les annonces des bourses et des régulateurs, les explorateurs blockchain et les données de transaction exportables. Ces documents sont relativement fiables mais nécessitent toujours une vigilance contre les pages de phishing et les annonces falsifiées — les liens et les domaines doivent être vérifiés manuellement.

  • Sources secondaires : incluent les rapports d'instituts de recherche, les documents d'audit et les pages de preuve de réserves ; ils aident à comprendre les mécanismes mais nécessitent de vérifier si la date de publication et le périmètre d'audit couvrent la structure actuelle.

  • Médias grand public : les interprétations des politiques peuvent être référencées, mais les conclusions clés doivent être recoupées avec les documents primaires.

  • Réseaux sociaux, KOL et contenu communautaire : ne conviennent que comme points d'entrée pour la découverte de problèmes et ne doivent pas justifier une transaction de manière indépendante. Les captures d'écran anonymes et les « informations internes » sont par défaut exclues de la logique de trading.

Les prompts peuvent exiger : seules les sources de haut grade peuvent être utilisées pour les déclarations factuelles ; les sources de grade moyen ou faible doivent être étiquetées comme « rapporté » ou « non vérifié » ; les éléments sans source ni date doivent être uniformément marqués pour vérification. Même si le modèle commet encore des erreurs, ce format de sortie facilite le filtrage manuel.

3. Horodatage et normes : les données crypto sont sujettes à « des données anciennes dans de nouveaux contextes »

La formation et la récupération des modèles sont en retard sur les développements en temps réel, et les mécanismes des projets sont souvent mis à jour. Lors des requêtes, spécifiez les plages temporelles — par exemple, analyser uniquement les documents après une certaine date ; signalez les informations potentiellement obsolètes comme « en date du [date] ». Lors de la comparaison des prix ou des métriques, précisez l'intervalle de chandelier, la bourse, la paire de trading, le spot ou le perpétuel, etc. Pour les statistiques on-chain, indiquez le nom de la chaîne, l'adresse du contrat, la fenêtre statistique et si les flux d'entrée/sortie des bourses sont inclus. Une même question sous différentes normes peut donner des conclusions opposées ; les normes doivent être un champ fixe dans le prompt plutôt qu'une réflexion après coup.

4. Récits de survivants et preuves contradictoires

Les discussions crypto ne présentent souvent que des cas profitables, n'utilisent que des échantillons de marché haussier ou citent des backtests de périodes haussières. Les narrations IA tendent à rendre les histoires complètes tout en ignorant les échantillons concurrents ayant échoué. Les contre-mesures incluent : exiger des preuves à la fois favorables et défavorables ; spécifier la taille de l'échantillon et la période ; répondre explicitement « ne peut pas déterminer » lorsque les preuves sont insuffisantes plutôt que de forcer une conclusion. Un dialogue orienté recherche est mieux adapté pour présenter des scénarios et des conditions d'échec plutôt que de produire directement des recommandations long/short.

5. Structure du prompt : la contrainte de la forme plutôt que l'éloquence rhétorique

Les prompts efficaces incluent généralement quatre parties :

  • Énoncé de périmètre — rôle d'assistant de recherche, pas de recommandations de tokens, pas de rendements garantis

  • Conditions de contrainte — pas de liens fabriqués, marquer les incertitudes, règles de classement des sources

  • Format de sortie — argument, base, grade de la source, date, conditions d'invalidation

  • Étapes de validation — vérifications manuelles requises — par exemple, ouvrir les URL des annonces ou vérifier les hachages de transactions on-chain

À la fin de chaque conversation, générez une liste de contrôle de validation à compléter manuellement avant de passer aux hypothèses ou aux étapes de trading. La longueur du prompt n'est pas la clé ; ce qui compte, c'est que la source, la période et les normes soient verrouillées.

6. Division du travail des données : les chiffres fournis par les humains, le modèle gère l'interprétation

Une division du travail plus robuste : les données de marché et on-chain doivent être exportées depuis des API, des bourses ou des explorateurs et collées à l'IA sous forme de tableaux bruts ou avec des champs clairs ; le modèle interprète les significations, identifie les incohérences et aide à structurer des hypothèses — mais ne génère pas indépendamment des valeurs critiques. Si le modèle participe aux calculs, exigez qu'il affiche les formules et les étapes intermédiaires, les conclusions clés étant recalculées manuellement. Les longues conversations risquent une dérive contextuelle ; les sujets importants doivent démarrer de nouveaux fils, les faits vérifiés doivent être archivés séparément pour référence ultérieure afin de réduire la contamination du contexte.

7. Résumé de la leçon

Cette leçon aborde l'étape précédant l'utilisation de l'IA : d'où viennent les documents, s'ils incluent des dates et des normes, et si les sources de faible grade peuvent être utilisées comme raisonnement de trading. Les hallucinations et les récits de survivants ne sont généralement pas le modèle qui « parle sans sens », mais résultent d'affirmations non vérifiables, de données obsolètes ou d'histoires de succès triées sur le volet dans l'entrée. En intégrant le classement des sources, les limites temporelles et les listes de contrôle de validation dans un processus fixe, les résultats deviennent par défaut des brouillons nécessitant vérification avant d'entrer dans les discussions d'hypothèses ou de positions. La prochaine leçon couvrira la validation de la stratégie : après avoir nettoyé les entrées, il est nécessaire d'examiner séparément les données, les coûts et les résultats hors échantillon — les courbes de backtest seules ne valident pas une stratégie.

Clause de non-responsabilité
* Les investissements en cryptomonnaies comportent des risques importants. Veuillez faire preuve de prudence. Le cours n'est pas destiné à fournir des conseils en investissement.
* Ce cours a été créé par l'auteur qui a rejoint Gate Learn. Toute opinion partagée par l'auteur ne représente pas Gate Learn.