La directive noindex est l’un des contrôles techniques SEO les plus directs disponibles. Elle dit à Googlebot : « crawle cette page si tu le souhaites, mais ne l’ajoute pas à l’index et ne l’affiche pas dans les résultats. » Contrairement au robots.txt qui bloque le crawl, le noindex autorise le robot à accéder à la page tout en empêchant son apparition dans les SERPs.
Les deux méthodes d’implémentation
La méthode la plus courante est la balise meta robots dans le head HTML : <meta name="robots" content="noindex">. L’alternative est un en-tête HTTP X-Robots-Tag, qui fonctionne pour toute URL y compris les ressources non-HTML. Les deux sont équivalentes ; la balise meta est plus simple à implémenter pour la plupart des CMS.
Quand utiliser noindex
Noindex est l’outil adapté pour les pages sans valeur de recherche organique : pages de connexion, espaces d’administration, résultats de recherche interne, pages de remerciement, variantes de contenu dupliqué, pages de pagination de faible valeur. Exclure ces pages de l’index améliore les signaux de qualité globaux du site et concentre le budget de crawl sur les pages importantes.
Les erreurs courantes avec noindex
L’erreur la plus dévastatrice est d’appliquer noindex sur une page également bloquée par robots.txt. Si Googlebot ne peut pas accéder à la page, il ne peut pas lire la directive noindex, et la page peut rester indexée indéfiniment depuis son dernier crawl. Une autre erreur fréquente : laisser noindex sur des pages après le lancement du site — une directive de phase de développement oubliée en production.


