Cloudflare, qui vous protège contre les robots d'exploration, lance une « API de robots d'exploration du site entier en un clic », avec un support parfait pour RAG, les mises à jour incrémentielles et l'entraînement des modèles

動區BlockTempo

Cloudflare a lancé le 10 mars une toute nouvelle API /crawl pour son service de rendu navigateur (actuellement en bêta ouverte). Cette nouvelle fonctionnalité permet aux développeurs de crawler un site entier via une seule requête API, avec une conversion automatique du contenu en HTML, Markdown ou JSON structuré, offrant un outil puissant et conforme pour la construction de jeux de données d’entraînement IA et de pipelines RAG (recherche augmentée par génération).

(Contexte : La panne majeure de Cloudflare ayant causé une interruption massive du réseau mondial, la « décentralisation » est-elle l’avenir des infrastructures ?)

(Complément : Après 24 heures d’indisponibilité, pourquoi le réseau s’effondre-t-il si facilement ? Le risque de centralisation face à l’avenir du Web3 et des RWA)

Sommaire

Toggle

  • Opérations asynchrones, support Markdown et JSON structuré
  • Moteur de crawler « bon enfant », strictement conforme et sécurisé
  • Crawler incrémental pour réduire les coûts, expérience gratuite disponible

Avec la croissance explosive de l’IA générative et des technologies RAG, la question de l’acquisition efficace et conforme de données web est devenue un défi majeur pour les développeurs. À cet égard, le géant des infrastructures réseau Cloudflare a annoncé officiellement le 10 mars le lancement d’une nouvelle fonctionnalité phare pour son service de rendu navigateur : une toute nouvelle API /crawl.

Actuellement en phase de test public (Open Beta), cette fonctionnalité vise à permettre aux développeurs de « crawler un site entier en une seule requête API ».

Opérations asynchrones, support Markdown et JSON structuré

Selon l’annonce de Cloudflare, la nouvelle API de crawler fonctionne de manière asynchrone. Les développeurs soumettent une URL de départ, et le système renvoie un identifiant de tâche (Job ID). En arrière-plan, un navigateur sans tête (Headless Browser) découvre et rend automatiquement les pages. Les développeurs peuvent consulter à tout moment l’état d’avancement et les résultats via cet ID.

Pour s’intégrer parfaitement aux flux de travail IA actuels, cette API propose plusieurs formats de sortie. Outre le HTML traditionnel, elle peut produire directement du Markdown, très apprécié par les grands modèles de langage (LLM), ou du JSON structuré alimenté par Workers AI. Cela réduit considérablement le temps consacré au nettoyage et à la conversion des données.

Moteur de crawler « bon enfant », strictement conforme et sécurisé

Contrairement à de nombreux crawlers malveillants cherchant à contourner les protections, cette API /crawl de Cloudflare mise sur la conformité et la transparence. La société insiste sur le fait qu’il s’agit d’un agent signé (Signed-agent), qui respecte strictement le fichier robots.txt du site cible (y compris les délais de crawl) et adhère à la norme « AI Crawl Control » de Cloudflare.

De plus, Cloudflare précise que cet outil « s’identifie comme robot » et ne peut pas contourner le système de détection de robots ou les CAPTCHA. Ce design garantit que le comportement du crawler ne viole pas la volonté des propriétaires de sites ni ne surcharge leurs serveurs.

Crawler incrémental pour réduire les coûts, expérience gratuite disponible

Pour améliorer l’efficacité et réduire les coûts, cette API intègre plusieurs contrôles avancés :

  • Crawler incrémental : supporte les paramètres modifiedSince et maxAge, permettant d’éviter de crawler les pages non modifiées ou récemment déjà crawlé, économisant ainsi les ressources.
  • Contrôle précis du périmètre : possibilité de définir la profondeur de crawl, la limite du nombre de pages, et d’utiliser des caractères génériques (Wildcard) pour inclure ou exclure certains chemins URL.
  • Mode statique : pour les sites purement statiques ne nécessitant pas de rendu JavaScript, il est possible de configurer render: false pour sauter le lancement du navigateur sans tête, accélérant considérablement le processus.

Actuellement, cette puissante fonctionnalité de crawler est accessible gratuitement pour les utilisateurs de Cloudflare Workers, en version gratuite comme payante. Pour les équipes cherchant à surveiller régulièrement des contenus, collecter des données pour la recherche ou construire des bases de connaissances IA d’entreprise, il s’agit sans doute d’une mise à niveau infrastructurelle très attractive.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire