Le crawl est l’étape zéro du SEO. Avant qu’une page puisse apparaître dans les résultats de recherche, elle doit être découverte et analysée par les robots des moteurs — principalement Googlebot, mais aussi Bingbot, les robots d’Apple, et ceux des LLMs (GPTBot, PerplexityBot). Ce processus conditionne l’ensemble de la visibilité organique et IA d’un site.
Comment Googlebot explore un site
Googlebot démarre à partir d’un ensemble de pages connues, puis suit chaque lien hypertexte pour découvrir de nouvelles URLs. Il analyse le contenu HTML, les en-têtes HTTP, les directives robots, les données structurées. Il revient régulièrement sur les pages déjà connues pour détecter les mises à jour — avec une fréquence proportionnelle à l’autorité du site et à la régularité des publications.
Les obstacles au crawl les plus fréquents
Plusieurs configurations bloquent silencieusement le crawl sans que les équipes s’en rendent compte : une directive Disallow: / trop large dans le robots.txt, des balises meta noindex appliquées par erreur sur des pages importantes, une architecture trop profonde (pages à plus de 4 clics de la page d’accueil), des chaînes de redirections qui ralentissent l’exploration, ou un budget de crawl épuisé sur les sites à fort volume. Chacun de ces problèmes a des conséquences directes sur l’indexation et la visibilité.
Budget de crawl : un concept critique pour les grands sites
Google alloue à chaque site un budget de crawl défini par deux facteurs : la crawl rate limit (limite de sollicitation des serveurs) et la crawl demand (popularité percée des pages). Sur un site de plusieurs milliers de pages, une mauvaise gestion du budget de crawl conduit Google à passer du temps sur des pages de faible valeur au détriment des pages stratégiques. L’enjeu est de rendre les pages prioritaires les plus accessibles et les plus linkables possible.
Crawl et LLMs : un nouveau paramètre
Les LLMs ont leurs propres robots (GPTBot, PerplexityBot, ClaudeBot, Google-Extended). Le fichier robots.txt permet de les autoriser ou de les bloquer individuellement. Le fichier llms.txt, encore non standardisé, émerge comme convention complémentaire pour indiquer aux LLMs quelles sections du site sont disponibles comme sources.


