01 Comment fonctionne l'indexation Google
L'indexation est le processus par lequel Google enregistre une page dans sa base de données pour pouvoir la présenter dans les résultats de recherche. Avant d'être indexée, une page passe par trois étapes distinctes. Les comprendre est la clé pour diagnostiquer n'importe quel problème d'indexation.
Un problème peut survenir à n'importe laquelle de ces trois étapes. Une page bloquée par robots.txt ne passera jamais l'étape 1. Une page avec du contenu généré en JavaScript mal rendu peut être crawlée mais pas correctement indexée. Une page de qualité insuffisante sera crawlée et rendue, mais rejetée à l'étape d'indexation.
Indexation et positionnement : deux choses différentes
Une page peut être indexée sans être bien positionnée. L'indexation est la condition préalable : Google doit savoir que la page existe. Le positionnement est la décision de classement : à quelle position Google choisit-il d'afficher cette page pour une requête donnée. Ce guide traite uniquement de l'indexation. Si vos pages sont indexées mais mal positionnées, le problème est différent et relève de l'optimisation SEO on-page et off-page.
02 Le crawl budget : comprendre et optimiser
Le crawl budget est le nombre de pages que Googlebot est prêt à explorer sur votre site dans un laps de temps donné. Il est calculé en fonction de deux paramètres : la limite de crawl (capacité du serveur à absorber les requêtes de Googlebot sans ralentir) et la demande de crawl (popularité et fraîcheur du site).
Pour la grande majorité des sites de moins de 1 000 pages avec un bon temps de réponse serveur, le crawl budget n'est pas un problème. Il devient critique sur les sites e-commerce avec des milliers de pages de filtres, les sites avec de nombreuses URLs dynamiques ou les sites très volumineux (100 000 pages et plus).
Ce qui grignote le crawl budget inutilement
- URLs avec paramètres de session :
?sessionid=abc123crée des milliers de variantes de la même page. - Pages de filtres et de facettes : sur un e-commerce, la combinaison couleur + taille + marque peut générer des dizaines de milliers d'URLs.
- Pages de pagination infinies :
/page/2,/page/3... jusqu'à des centaines de pages. - Redirections en cascade : A redirige vers B qui redirige vers C. Chaque saut consomme du budget.
- Pages en erreur 404 et 5XX : Googlebot les retente régulièrement, gaspillant le budget sur des pages inexistantes.
- Contenu dupliqué non géré : versions HTTP et HTTPS, avec et sans www, avec et sans slash final.
Comment libérer du crawl budget
Bloquez via robots.txt les URLs qui n'ont aucune valeur SEO : pages de tri (par prix, par popularité), pages de connexion et de compte, URLs de tracking interne, pages de résultats de recherche interne. Consolidez les URLs dupliquées avec des canonicals corrects. Corrigez toutes les erreurs 404 et les redirections en cascade. Un sitemap XML propre, listant uniquement les URLs canoniques à indexer, aide aussi Googlebot à prioriser les bonnes pages.
03 Vérifier l'état d'indexation de son site
La commande site: dans Google
La méthode la plus rapide : tapez site:votredomaine.fr dans Google. Le nombre de résultats affichés donne une estimation grossière du nombre de pages indexées. C'est une estimation, pas un chiffre exact. Si le nombre est très inférieur au nombre de pages réelles de votre site, vous avez probablement un problème d'indexation généralisé.
Vous pouvez affiner la recherche : site:votredomaine.fr/categorie/ pour vérifier l'indexation d'une section précise, ou site:votredomaine.fr "titre exact de la page" pour tester une page spécifique.
L'URL Inspection Tool de Google Search Console
C'est l'outil de diagnostic le plus précis pour une URL donnée. Entrez n'importe quelle URL de votre site dans la barre de GSC et vous obtenez en retour :
- Si la page est actuellement indexée ou non
- La raison exacte de l'exclusion si elle n'est pas indexée
- La version HTML rendue par Googlebot (avec capture d'écran)
- La date du dernier crawl et la fréquence de crawl
- Les liens internes détectés depuis cette page
- L'URL canonique détectée par Google (qui peut différer de la vôtre)
Le rapport Couverture de GSC
Le rapport Couverture (ou "Pages" dans la nouvelle interface GSC) donne une vue globale de l'état d'indexation de l'ensemble du site. Il répartit les URLs en quatre catégories : Erreur, Valide avec avertissement, Valide, et Exclue. La section "Exclue" est souvent la plus instructive : elle détaille pourquoi Google a décidé de ne pas indexer certaines pages.
04 Les statuts GSC décryptés un par un
Google Search Console utilise des libellés précis pour chaque statut d'URL. Les voici expliqués avec leur niveau de gravité et l'action à entreprendre.
meta robots noindex ou un header HTTP noindex. Google respecte cet ordre et n'indexe pas.05 Les 8 causes principales de non-indexation
<meta name="robots" content="noindex"> ou un header HTTP X-Robots-Tag: noindex ordonne explicitement à Google de ne pas indexer la page. Erreur fréquente lors de migrations ou de déploiements de thèmes CMS qui activent le noindex en staging et l'oublient en production.Disallow dans le fichier /robots.txt empêche Googlebot d'accéder à la page. Problème fréquent sur les sites en migration ou les dossiers incorrectement bloqués. Attention : un blocage robots.txt n'empêche pas l'indexation via des backlinks, mais rend le contenu de la page inconnu de Google.<link rel="canonical"> indique à Google quelle est la version de référence d'une page. Si elle pointe vers une URL différente, Google indexera cette URL de référence et ignorera la page actuelle. Erreur classique : canonical absolu mal configuré après un changement de domaine.06 Corriger les problèmes d'indexation
Corriger un noindex accidentel
Vérifiez d'abord la source du noindex. Il peut venir de la balise meta dans le <head>, d'un header HTTP (vérifiable via curl ou un outil comme httpstatus.io), ou d'une règle dans votre CMS (WordPress avec le mode "décourager les moteurs de recherche" activé, par exemple). Une fois la source identifiée, supprimez la directive et demandez une reindexation via l'URL Inspection Tool de GSC.
Assouplir un robots.txt trop restrictif
Ouvrez votredomaine.fr/robots.txt et vérifiez les règles Disallow. Utilisez l'outil de test robots.txt dans GSC (ancienne Search Console) pour simuler le comportement de Googlebot sur des URLs spécifiques. Supprimez les règles qui bloquent des sections importantes du site. Après modification, soumettez le sitemap à nouveau et demandez un recrawl des URLs affectées.
Corriger les problèmes de canonical
Si une page est exclue avec le statut "Page alternative avec balise canonical correcte", vérifiez que la canonical pointe bien vers la bonne URL. Cas à vérifier : canonical en HTTP alors que le site est en HTTPS, canonical avec www alors que l'URL principale est sans www, canonical vers une page de pagination au lieu de la page 1, ou canonical auto-référentiel mal formé (avec des paramètres inutiles).
Résoudre les erreurs 404 persistantes
Pour chaque 404 signalée dans GSC, trois options : créer une redirection 301 vers l'URL de remplacement la plus pertinente (recommandé si des backlinks pointaient vers l'URL), recréer la page si elle a été supprimée par erreur, ou ne rien faire si la page n'avait aucune valeur et aucun lien entrant. Les 404 sans backlinks et sans valeur peuvent être laissées telles quelles : Google finit par les retirer de son index.
Traiter le "crawlé mais pas encore indexé"
Ce statut est le plus complexe car il n'indique pas la cause précise. Voici l'ordre d'investigation recommandé : comparez la longueur et la qualité du contenu avec les pages concurrentes indexées sur le même sujet. Vérifiez que la page reçoit des liens internes depuis des pages déjà indexées. Regardez si le contenu est trop similaire à une autre page déjà indexée sur votre site. Enrichissez le contenu pour le rendre plus substantiel et plus unique, puis demandez une reindexation.
07 Accélérer l'indexation de nouvelles pages
Publier une page et attendre que Google la trouve seul peut prendre des semaines. Ces techniques permettent d'accélérer significativement le processus.
Soumission manuelle via l'URL Inspection Tool
C'est la méthode la plus directe. Dans GSC, collez l'URL dans la barre de recherche, cliquez sur "Demander l'indexation". Google place la page dans sa file de crawl prioritaire. La prise en compte se fait généralement en quelques heures à quelques jours. Limitez-vous aux pages importantes : la soumission manuelle a un quota quotidien.
Le sitemap XML comme signal de découverte
Un sitemap XML à jour soumis dans GSC informe Google de l'existence de toutes vos pages. Pour les nouvelles publications, mettez à jour votre sitemap immédiatement et soumettez-le à nouveau dans GSC. La plupart des CMS gèrent ça automatiquement via des plugins (Yoast, Rank Math sur WordPress).
Un sitemap efficace ne liste que des URLs canoniques, sans redirections, sans pages noindex, et sans erreurs. Un sitemap de mauvaise qualité (plein de 404 ou de redirections) dégrade votre crédibilité auprès de Googlebot.
Le maillage interne comme accélérateur
Ajoutez un lien contextuel vers votre nouvelle page depuis une page déjà bien crawlée, de préférence une page populaire ou récemment mise à jour. Googlebot suit les liens lors de ses visites régulières : un lien depuis une page crawlée fréquemment est une invitation directe à visiter votre nouvelle page rapidement.
IndexNow : le protocole de notification instantanée
IndexNow est un protocole open source qui permet de notifier instantanément les moteurs de recherche (Bing, Yandex, et indirectement Google via la validation de l'information) qu'une URL a été créée ou modifiée. Il ne remplace pas la soumission GSC pour Google, mais accélère la prise en compte sur Bing, qui partage parfois les données de crawl. Cloudflare et plusieurs CMS proposent des intégrations natives d'IndexNow.
08 Le cas particulier des sites JavaScript
Les sites construits avec des frameworks JavaScript modernes (React, Vue, Angular, Next.js, Nuxt.js) posent des défis spécifiques à l'indexation. Comprendre comment Googlebot traite le JavaScript est essentiel pour éviter des problèmes invisibles mais dévastateurs.
Comment Googlebot rend le JavaScript
Googlebot utilise une version de Chromium pour rendre le JavaScript, mais avec un délai. Le processus en deux vagues de John Mueller (anciennement de Google) le résume bien : Googlebot crawle d'abord le HTML brut (vague 1), puis place la page dans une file de rendu JavaScript qui est traitée plus tard (vague 2). Ce délai peut aller de quelques secondes à plusieurs jours selon la charge des serveurs de Google.
Les architectures à risque
| Architecture | Risque d'indexation | Recommandation |
|---|---|---|
| SPA classique (CSR pur) | Élevé | Implémenter SSR ou prerendering obligatoire |
| Next.js avec SSR | Faible | Vérifier que le rendu serveur fonctionne pour toutes les routes |
| Next.js avec SSG (pages statiques) | Très faible | Architecture idéale pour l'indexation |
| Site WordPress classique | Très faible | HTML servi directement, pas de problème de rendu JS |
| Site avec prerendering (Prerender.io) | Faible | Efficace mais ajoute une couche de complexité à maintenir |
Diagnostiquer un problème de rendu JavaScript
Dans l'URL Inspection Tool de GSC, comparez la version "HTML brut" et la version "rendue" de votre page. Si le contenu principal n'apparaît que dans la version rendue, vous êtes dépendant du rendu JavaScript de Google. Vérifiez aussi la capture d'écran : si la page est blanche ou incomplète, le rendu a échoué.
09 Surveillance continue et alertes
Les problèmes d'indexation apparaissent souvent sans prévenir : après une mise à jour de thème, un déploiement bâclé, ou une migration. Une surveillance continue évite de les découvrir des semaines trop tard.
Mettre en place des alertes dans GSC
Google Search Console envoie des emails automatiques quand des erreurs d'indexation significatives sont détectées. Vérifiez que votre compte GSC est configuré pour recevoir ces notifications. Connectez-vous régulièrement (au minimum une fois par semaine sur des sites actifs) pour surveiller l'évolution du rapport Couverture.
Surveiller le nombre de pages indexées
Faites un relevé mensuel du nombre de pages indexées via site:votredomaine.fr et via GSC. Une chute soudaine du nombre de pages indexées est un signal d'alarme qui nécessite une investigation immédiate. Les causes possibles : mise à jour de contenu qui a déclenché du noindex en masse, migration ratée, attaque de contenu négatif ou déploiement d'un fichier robots.txt trop restrictif.
Outils de monitoring tiers
| Outil | Ce qu'il surveille | Prix |
|---|---|---|
| Google Search Console | Statuts d'indexation, erreurs de couverture, alertes automatiques | Gratuit |
| Screaming Frog | Crawl programmé, détection des noindex, redirections et 404 | Gratuit / Payant |
| Ahrefs Site Audit | Suivi hebdomadaire des erreurs d'indexation, alertes, évolution | Payant |
| Semrush Site Audit | Crawl planifié, rapport d'indexabilité, alertes configurables | Payant |
| Sitechecker Pro | Surveillance en temps réel des changements d'indexation | Freemium |
10 Checklist d'indexation en 25 points
Utilisez cette checklist lors de chaque audit, après chaque migration ou déploiement majeur, et comme point de contrôle mensuel.
Vérifications de base
- Vérifier que le fichier robots.txt n'est pas trop restrictif (
site:votredomaine.fr> nombre de résultats cohérent) - Contrôler que le mode "noindex global" du CMS n'est pas activé en production
- Vérifier que toutes les pages stratégiques n'ont pas de balise
noindexvia un crawl Screaming Frog - Confirmer que le sitemap XML est soumis et accessible dans GSC
- S'assurer que le sitemap ne contient que des URLs canoniques sans redirections ni erreurs
Rapport Couverture GSC
- Vérifier le rapport Couverture : aucune augmentation soudaine des erreurs
- Investiguer toutes les URLs en statut "Crawlé, pas encore indexé" (contenu, maillage, qualité)
- Identifier les pages en "Découvert, pas encore crawlé" et améliorer leur maillage interne
- Traiter toutes les erreurs 404 signalées (redirection ou suppression propre)
- Vérifier qu'aucune erreur 5XX n'est présente ou persistante
Canonicals et duplications
- Vérifier que les canonicals pointent toujours vers les bonnes URLs (notamment après une migration)
- Contrôler l'absence de canonical chains (A pointe vers B qui pointe vers C)
- S'assurer qu'HTTP redirige vers HTTPS, sans boucle ni canonical en HTTP
- Vérifier que les variantes www et sans-www sont correctement gérées
- Détecter les pages de contenu dupliqué sans canonical résolutif
Crawl budget et architecture
- Identifier et bloquer les URLs sans valeur SEO dans robots.txt (paramètres, filtres, sessions)
- Vérifier que les pages importantes sont accessibles en 3 clics maximum
- Corriger les redirections en cascade (A>B>C : remplacer par A>C directement)
- Surveiller le log de crawl pour détecter les anomalies de budget (si accès aux logs serveur disponible)
JavaScript et rendu
- Tester la version rendue des pages principales via l'URL Inspection Tool
- S'assurer que le contenu critique n'est pas exclusivement chargé via JavaScript côté client
- Vérifier que les balises meta robots et canonical sont présentes dans le HTML initial (pas injectées par JS)
Nouvelles pages
- Chaque nouvelle page est soumise manuellement via GSC après publication
- Chaque nouvelle page reçoit au moins 2 liens internes contextuels depuis des pages existantes
- Le sitemap est mis à jour automatiquement à chaque nouvelle publication
votredomaine.fr/robots.txt pour une règle Disallow. (5) Vérifiez le canonical dans le <head>. Ces 5 étapes couvrent 90% des causes de non-indexation en moins de 5 minutes.