Leçon 1

Données on-chain dans le Web3

Web3 incarne la nouvelle génération d’Internet, fondée sur la décentralisation et le contrôle des données par les utilisateurs. La technologie blockchain sert de socle à de nombreuses applications Web3 aujourd’hui. Ce chapitre débute par la définition et la classification des données on-chain, examine leur valeur et présente des recommandations pratiques.

Qu'est-ce que les données on-chain ?

Les données on-chain correspondent aux informations enregistrées directement sur une blockchain. Comme la blockchain agit comme une base de données distribuée, ces données sont accessibles publiquement et peuvent être consultées par n'importe qui.

Web3 et web2 désignent différentes générations du World Wide Web, web3 représentant la version la plus récente et la plus avancée. Les principales différences entre les deux incluent :

  1. Web3 est décentralisé, alors que web2 est centralisé. Ainsi, dans web3, les données et services sont fournis par un réseau distribué de nœuds plutôt que par une entité unique. Cela confère à web3 une résilience accrue et une moindre vulnérabilité à la censure ou aux défaillances, tout en le rendant plus complexe et difficile à maîtriser.

  2. Web3 repose sur la technologie blockchain, tandis que web2 s'appuie sur une architecture client-serveur classique. Dans web3, les données sont stockées et transmises grâce à des algorithmes cryptographiques, contrairement à web2 où elles transitent par un serveur central. Web3 offre donc davantage de sécurité et de transparence, mais au prix d'une exécution plus lente et coûteuse.

  3. Web3 vise à permettre l'émergence de nouveaux types d'applications et de services, alors que web2 cherche à optimiser les solutions existantes. Web3 se distingue ainsi par son aspect expérimental et prospectif, tandis que web2 est plus mature et éprouvé.

Ces différences influent sur les méthodes d'analyse des données dans chaque environnement. Dans web3, l'analyse des données vise principalement à comprendre le fonctionnement des réseaux décentralisés et les mécanismes de la blockchain. Cela suppose souvent le recours à des approches avancées comme l'apprentissage automatique ou l'analyse de réseaux pour détecter des tendances et des motifs. Dans web2, l'analyse se concentre davantage sur le comportement des utilisateurs et des applications, en utilisant des techniques classiques comme l'analyse statistique ou la visualisation de données pour identifier tendances et insights.

Pour réaliser une analyse des données on-chain, il convient de collecter et organiser les données pertinentes, puis de recourir à des outils tels que la visualisation de données ou l'analyse statistique afin de dégager des tendances et des motifs. Cette approche permet de mieux comprendre le fonctionnement du réseau blockchain et de ses utilisateurs, mais aussi d'émettre des hypothèses sur l'évolution du marché. Dans certains cas, l'apprentissage automatique peut également servir à automatiser l'analyse et à détecter des schémas plus complexes.

Catégories de données on-chain

On distingue deux catégories de données on-chain :

  1. Données brutes

  2. Données abstraites

Cette distinction s'explique par le fait que toutes les métriques calculées ne sont, en réalité, que des abstractions issues des données brutes. Les données brutes on-chain désignent les informations non traitées enregistrées sur la blockchain, telles que les détails de chaque transaction : expéditeur, destinataire et montant transféré. Les données économiques, quant à elles, sont dérivées des données brutes et concernent l'offre et la demande d'une cryptomonnaie, ainsi que sa capitalisation boursière ou son volume de transactions.

Les données économiques ne sont pas simplement des abstractions des données brutes : elles résultent de calculs reposant sur diverses techniques et métriques. Par exemple, la capitalisation boursière correspond à l'offre totale multipliée par le prix courant d'une cryptomonnaie, tandis que le volume d'échange s'obtient en additionnant le nombre total de transactions sur une période donnée. D'autres métriques, comme la vélocité de la monnaie ou le ratio valeur du réseau sur transactions, s'appuient sur des formules plus complexes intégrant des facteurs tels que le nombre de transactions et l'activité du réseau.

En somme, les données économiques offrent une vision globale du marché des cryptomonnaies et sont utiles pour analyser les tendances du marché ou orienter les décisions d'investissement. Cependant, il convient de rappeler que ces données ne reflètent pas toujours fidèlement ou intégralement la réalité du marché, et doivent donc être utilisées avec discernement.

Différentes solutions analytiques

Centralisation vs décentralisation

Il existe plusieurs solutions pour indexer les données on-chain, qu'elles soient centralisées ou décentralisées. Les solutions centralisées reposent généralement sur une entité unique chargée de collecter et d'organiser les données, tandis que les solutions décentralisées s'appuient sur un réseau distribué de nœuds pour indexer les données. Citons par exemple les explorateurs de blocs, qui permettent de rechercher et de consulter la blockchain, ou encore les services d'indexation qui fournissent des API et des outils aux développeurs pour accéder et analyser les données on-chain.

Il est envisageable de concevoir une solution analytique décentralisée basée sur la blockchain, sous réserve de respecter les contraintes et spécificités du système concerné. L'un des avantages potentiels d'une telle approche réside dans la garantie d'intégrité et de sécurité des données analysées. En revanche, les systèmes décentralisés sont souvent plus complexes à concevoir et à déployer, et requièrent davantage de ressources en calcul et en stockage. Sur le plan des performances, une solution décentralisée peut parfois être plus lente qu'une solution centralisée, mais cela dépend de nombreux paramètres : algorithmes, structures de données, architecture globale, etc. Au final, le choix d'une approche décentralisée dépendra des objectifs et besoins propres à la solution analytique visée.

Que peut-on faire avec les données blockchain ?

De nombreuses méthodologies peuvent être appliquées à l'analyse des données on-chain. Parmi les plus courantes :

Analyse descriptive

L'analyse descriptive consiste à résumer et décrire les données, notamment via le calcul de statistiques de base et la création de visualisations. Ce type d'analyse permet d'avoir une vue d'ensemble des données et de repérer tendances et motifs.


Analyse exploratoire

L'analyse exploratoire implique une investigation plus poussée des données, à travers des techniques comme le clustering ou la réduction de dimensionnalité. Elle permet de mettre au jour des schémas cachés et des relations, et de générer des hypothèses pour des recherches ultérieures.


Analyse inférentielle

L'analyse inférentielle fait appel à des méthodes statistiques pour tirer des conclusions sur une population à partir d'un échantillon. Différentes techniques sont utilisées, telles que le calcul de la moyenne, de la médiane, du mode, de l'écart-type, ou encore les tests d'hypothèses et la régression. Ce type d'analyse aide à prédire et généraliser les résultats, et à détecter des tendances qui ne sont pas immédiatement visibles.


Analyse prédictive

L'analyse prédictive s'appuie sur des algorithmes d'apprentissage automatique pour anticiper des événements ou résultats futurs à partir des données. Ce type d'analyse permet d'identifier des tendances et des schémas, et de formuler des prévisions ou recommandations. On y retrouve souvent des techniques comme le clustering, la classification ou la régression, pour mettre en évidence des motifs et des relations.

Le choix de la méthodologie pour l'analyse des données on-chain dépendra des objectifs visés, des besoins de l'analyse et de la nature même des données.

La visualisation de données constitue un outil analytique essentiel pour représenter des données complexes de façon visuelle. Il peut s'agir de graphiques, de diagrammes ou de cartes, qui facilitent la détection de tendances et de motifs. Par exemple, un graphique linéaire peut illustrer l'évolution du prix d'une cryptomonnaie dans le temps, tandis qu'un graphique en barres permet de comparer la capitalisation de différentes cryptomonnaies. Les outils de visualisation de données offrent aussi la possibilité de créer des visualisations interactives, permettant d'explorer plus en profondeur les données et d'interagir avec elles en temps réel. Cela aide à révéler des relations et des motifs qui ne sont pas immédiatement perceptibles dans les données brutes.

On peut se demander : pourquoi utiliser des outils de visualisation alors que les explorateurs de blocs fournissent déjà des informations détaillées ? Les outils de visualisation de données et les explorateurs de blocs sont complémentaires pour l'analyse des données on-chain, mais leur finalité et les informations fournies diffèrent.

Les outils de visualisation de données servent à représenter les données sous une forme visuelle, ce qui facilite leur compréhension et la détection de tendances ou de motifs. À l'inverse, les explorateurs de blocs permettent de parcourir la blockchain et d'accéder à des informations sur des blocs, transactions ou adresses spécifiques. Ils offrent une interface intuitive pour explorer la blockchain, mais n'intègrent généralement pas de fonctionnalités d'analyse ou de visualisation avancées. En pratique, la combinaison des outils de visualisation de données et des explorateurs de blocs permet d'obtenir une vision plus complète des données blockchain.

Web3 : data science et opportunités professionnelles

Quatre points sont à considérer pour appréhender l'avenir de Web3 et de la data science :

Web3 créera davantage d'opportunités professionnelles pour les data scientists et les experts en données. Les organisations prêtes à adopter Web3 auront un besoin croissant de profils expérimentés en analyse, interprétation et développement de produits et services basés sur les données, intégrant l'intelligence artificielle et le machine learning.

Web3 offrira des avantages financiers aux utilisateurs comme aux data scientists. Les entreprises pourront acheter directement des données auprès des utilisateurs (ces derniers pouvant vendre leurs données à qui ils souhaitent), combiner ces nouveaux jeux de données avec ceux existants pour améliorer les modèles d'apprentissage, puis vendre ces nouveaux insights sur le marché ouvert.

Les data scientists pourront appliquer l'intelligence artificielle pour mieux comprendre les besoins spécifiques des clients sur Web3. Les entreprises du secteur pourront développer des modèles linguistiques favorisant la « compréhension sémantique », car Web3 est centré sur l'utilisateur et les données sont liées à l'interaction utilisateur. Elles pourront ainsi extraire des insights à partir des données brutes et les transformer en recommandations de produits mieux adaptées aux attentes des clients.

À l'ère Web3, les data scientists joueront un rôle bien plus important dans l'économie mondiale. Ils deviendront les nouveaux « neurones », capables de créer du contenu ou des modèles d'IA interagissant entre eux pour résoudre des problématiques plus complexes ou anticiper des risques potentiels pour les entreprises et organisations.

Clause de non-responsabilité
* Les investissements en cryptomonnaies comportent des risques importants. Veuillez faire preuve de prudence. Le cours n'est pas destiné à fournir des conseils en investissement.
* Ce cours a été créé par l'auteur qui a rejoint Gate Learn. Toute opinion partagée par l'auteur ne représente pas Gate Learn.