Indexation Google : comprendre et corriger les problèmes

Une page non indexée est une page invisible. Elle n'existe pas pour Google, et donc pour personne. Pourtant, les problèmes d'indexation sont parmi les bugs SEO les plus fréquents et les moins bien diagnostiqués. Ce guide vous explique comment l'indexation fonctionne, comment lire les signaux de Google Search Console, identifier la cause exacte d'un problème et appliquer la correction adaptée.

01 Comment fonctionne l'indexation Google

L'indexation est le processus par lequel Google enregistre une page dans sa base de données pour pouvoir la présenter dans les résultats de recherche. Avant d'être indexée, une page passe par trois étapes distinctes. Les comprendre est la clé pour diagnostiquer n'importe quel problème d'indexation.

1
🤖
Crawl
Googlebot visite l'URL, télécharge le HTML brut de la page et suit les liens qu'il y trouve.
2
🖥️
Rendu
Le moteur de rendu exécute le JavaScript et reconstruit la page telle qu'un navigateur la verrait réellement.
3
📚
Indexation
Google analyse le contenu rendu, détermine sa valeur et décide de l'ajouter ou non à son index.

Un problème peut survenir à n'importe laquelle de ces trois étapes. Une page bloquée par robots.txt ne passera jamais l'étape 1. Une page avec du contenu généré en JavaScript mal rendu peut être crawlée mais pas correctement indexée. Une page de qualité insuffisante sera crawlée et rendue, mais rejetée à l'étape d'indexation.

Indexation et positionnement : deux choses différentes

Une page peut être indexée sans être bien positionnée. L'indexation est la condition préalable : Google doit savoir que la page existe. Le positionnement est la décision de classement : à quelle position Google choisit-il d'afficher cette page pour une requête donnée. Ce guide traite uniquement de l'indexation. Si vos pages sont indexées mais mal positionnées, le problème est différent et relève de l'optimisation SEO on-page et off-page.

🌐
LE DÉLAI DE RENDU JAVASCRIPT Googlebot crawle d'abord le HTML brut, puis place la page dans une file d'attente pour le rendu JavaScript. Ce rendu peut prendre de quelques secondes à plusieurs jours. Pendant ce délai, Google voit une version incomplète de la page. C'est pourquoi les sites entièrement en JavaScript côté client (SPA sans SSR) peuvent avoir des problèmes d'indexation même sans erreur technique apparente.

02 Le crawl budget : comprendre et optimiser

Le crawl budget est le nombre de pages que Googlebot est prêt à explorer sur votre site dans un laps de temps donné. Il est calculé en fonction de deux paramètres : la limite de crawl (capacité du serveur à absorber les requêtes de Googlebot sans ralentir) et la demande de crawl (popularité et fraîcheur du site).

Pour la grande majorité des sites de moins de 1 000 pages avec un bon temps de réponse serveur, le crawl budget n'est pas un problème. Il devient critique sur les sites e-commerce avec des milliers de pages de filtres, les sites avec de nombreuses URLs dynamiques ou les sites très volumineux (100 000 pages et plus).

Ce qui grignote le crawl budget inutilement

  • URLs avec paramètres de session : ?sessionid=abc123 crée des milliers de variantes de la même page.
  • Pages de filtres et de facettes : sur un e-commerce, la combinaison couleur + taille + marque peut générer des dizaines de milliers d'URLs.
  • Pages de pagination infinies : /page/2, /page/3... jusqu'à des centaines de pages.
  • Redirections en cascade : A redirige vers B qui redirige vers C. Chaque saut consomme du budget.
  • Pages en erreur 404 et 5XX : Googlebot les retente régulièrement, gaspillant le budget sur des pages inexistantes.
  • Contenu dupliqué non géré : versions HTTP et HTTPS, avec et sans www, avec et sans slash final.

Comment libérer du crawl budget

Bloquez via robots.txt les URLs qui n'ont aucune valeur SEO : pages de tri (par prix, par popularité), pages de connexion et de compte, URLs de tracking interne, pages de résultats de recherche interne. Consolidez les URLs dupliquées avec des canonicals corrects. Corrigez toutes les erreurs 404 et les redirections en cascade. Un sitemap XML propre, listant uniquement les URLs canoniques à indexer, aide aussi Googlebot à prioriser les bonnes pages.

03 Vérifier l'état d'indexation de son site

La commande site: dans Google

La méthode la plus rapide : tapez site:votredomaine.fr dans Google. Le nombre de résultats affichés donne une estimation grossière du nombre de pages indexées. C'est une estimation, pas un chiffre exact. Si le nombre est très inférieur au nombre de pages réelles de votre site, vous avez probablement un problème d'indexation généralisé.

Vous pouvez affiner la recherche : site:votredomaine.fr/categorie/ pour vérifier l'indexation d'une section précise, ou site:votredomaine.fr "titre exact de la page" pour tester une page spécifique.

L'URL Inspection Tool de Google Search Console

C'est l'outil de diagnostic le plus précis pour une URL donnée. Entrez n'importe quelle URL de votre site dans la barre de GSC et vous obtenez en retour :

  • Si la page est actuellement indexée ou non
  • La raison exacte de l'exclusion si elle n'est pas indexée
  • La version HTML rendue par Googlebot (avec capture d'écran)
  • La date du dernier crawl et la fréquence de crawl
  • Les liens internes détectés depuis cette page
  • L'URL canonique détectée par Google (qui peut différer de la vôtre)
💡
TESTER LA VERSION RENDUE Dans l'URL Inspection Tool, cliquez sur "Voir la page testée" pour afficher la capture d'écran de la page telle que Googlebot la voit. Si le contenu visible est incomplet ou blanc, vous avez un problème de rendu JavaScript qui explique une mauvaise indexation du contenu.

Le rapport Couverture de GSC

Le rapport Couverture (ou "Pages" dans la nouvelle interface GSC) donne une vue globale de l'état d'indexation de l'ensemble du site. Il répartit les URLs en quatre catégories : Erreur, Valide avec avertissement, Valide, et Exclue. La section "Exclue" est souvent la plus instructive : elle détaille pourquoi Google a décidé de ne pas indexer certaines pages.

04 Les statuts GSC décryptés un par un

Google Search Console utilise des libellés précis pour chaque statut d'URL. Les voici expliqués avec leur niveau de gravité et l'action à entreprendre.

Indexé
La page est dans l'index de Google et éligible aux résultats de recherche. Aucune action requise.
Surveiller la position dans le rapport Performances
🚫
Exclu par balise noindex
La page contient meta robots noindex ou un header HTTP noindex. Google respecte cet ordre et n'indexe pas.
Vérifier si le noindex est intentionnel
🤖
Bloqué par robots.txt
Googlebot ne peut pas accéder à la page. Elle peut exister dans l'index avec des infos limitées, mais son contenu n'est pas connu.
Vérifier robots.txt via l'outil GSC dédié
🔀
Page alternative avec balise canonical correcte
Google reconnaît votre canonical et pointe vers une autre URL comme référence. Normal si la canonical est voulue.
Vérifier que l'URL canonique est correcte
🔍
Crawlé, pas encore indexé
Googlebot a visité la page mais a jugé son contenu insuffisant ou dupliqué pour l'indexer. Signal de qualité négatif.
Améliorer le contenu, renforcer le maillage
Découvert, pas encore crawlé
Google sait que la page existe mais ne l'a pas encore visitée. File d'attente de crawl. Peut prendre de quelques jours à plusieurs semaines.
Soumettre manuellement ou améliorer le maillage
💀
Page introuvable (404)
La page renvoie une erreur 404. Elle est retirée de l'index progressivement. Les backlinks qui pointaient vers elle perdent leur valeur.
Rediriger vers l'URL de remplacement ou recréer la page
Erreur serveur (5XX)
Le serveur a retourné une erreur lors du crawl. Si persistant, Google finit par désindexer la page.
Corriger le problème serveur en urgence
⚠️
LE CAS "CRAWLÉ MAIS PAS ENCORE INDEXÉ" Ce statut est souvent le plus difficile à corriger. Google dit explicitement : "j'ai vu ta page, je n'en veux pas." Les causes possibles sont nombreuses : contenu trop court, trop similaire à d'autres pages du site, valeur perçue trop faible, page orpheline sans maillage, ou page dans un silo thématique sans cohérence. L'URL Inspection ne donne pas toujours la vraie raison.

05 Les 8 causes principales de non-indexation

🚫
Balise meta noindex présente
La balise <meta name="robots" content="noindex"> ou un header HTTP X-Robots-Tag: noindex ordonne explicitement à Google de ne pas indexer la page. Erreur fréquente lors de migrations ou de déploiements de thèmes CMS qui activent le noindex en staging et l'oublient en production.
Critique
🤖
Blocage dans robots.txt
Une règle Disallow dans le fichier /robots.txt empêche Googlebot d'accéder à la page. Problème fréquent sur les sites en migration ou les dossiers incorrectement bloqués. Attention : un blocage robots.txt n'empêche pas l'indexation via des backlinks, mais rend le contenu de la page inconnu de Google.
Critique
🔀
Canonical pointant vers une autre URL
La balise <link rel="canonical"> indique à Google quelle est la version de référence d'une page. Si elle pointe vers une URL différente, Google indexera cette URL de référence et ignorera la page actuelle. Erreur classique : canonical absolu mal configuré après un changement de domaine.
Important
💀
Erreur serveur 404 ou 5XX
Une page qui retourne une erreur HTTP ne peut pas être indexée. Les 404 signalent que la page n'existe pas, les 5XX que le serveur a rencontré une erreur. Des erreurs 5XX persistantes conduisent Google à désindexer progressivement les pages concernées.
Critique
📄
Contenu en doublon ou quasi-dupliqué
Si une page est trop similaire à une autre page du même site (ou d'un autre site), Google choisit quelle version indexer et ignore les doublons. Cas fréquents : pages de catégories avec du contenu quasi identique, fiches produit avec des descriptions copiées-collées du fabricant, articles traduits de l'anglais sans adaptation.
Important
📉
Contenu jugé de faible valeur
Google peut décider de ne pas indexer une page qu'il juge "thin content" : trop courte, trop générique, sans apport informationnel réel. Les pages avec peu de texte, des boilerplate répétitifs ou du contenu auto-généré sont particulièrement exposées depuis les mises à jour Helpful Content.
Important
🏝️
Page orpheline sans maillage interne
Une page sans aucun lien interne pointant vers elle est difficile à découvrir pour Googlebot. Même si elle est dans le sitemap, l'absence de liens internes signale à Google qu'elle n'est pas importante. Sans PageRank interne, elle sera crawlée rarement et potentiellement ignorée lors de l'indexation.
Modéré
⚙️
Contenu bloqué par le rendu JavaScript
Si le contenu principal de la page est généré via JavaScript côté client et que Googlebot ne parvient pas à le rendre correctement, il indexe une page vide ou incomplète. Problème courant sur les SPA (Single Page Applications) sans server-side rendering ni prerendering.
Important

06 Corriger les problèmes d'indexation

Corriger un noindex accidentel

Vérifiez d'abord la source du noindex. Il peut venir de la balise meta dans le <head>, d'un header HTTP (vérifiable via curl ou un outil comme httpstatus.io), ou d'une règle dans votre CMS (WordPress avec le mode "décourager les moteurs de recherche" activé, par exemple). Une fois la source identifiée, supprimez la directive et demandez une reindexation via l'URL Inspection Tool de GSC.

🔎
VÉRIFIER RAPIDEMENT LE NOINDEX DANS UN CMS Sur WordPress : Réglages > Lecture > vérifiez que "Demander aux moteurs de recherche de ne pas indexer ce site" n'est pas coché. Sur Shopify : Préférences de la boutique. Sur Wix : Paramètres SEO. Sur Webflow : Paramètres de publication. Ces options sont parfois activées par défaut en mode développement et oubliées lors du lancement.

Assouplir un robots.txt trop restrictif

Ouvrez votredomaine.fr/robots.txt et vérifiez les règles Disallow. Utilisez l'outil de test robots.txt dans GSC (ancienne Search Console) pour simuler le comportement de Googlebot sur des URLs spécifiques. Supprimez les règles qui bloquent des sections importantes du site. Après modification, soumettez le sitemap à nouveau et demandez un recrawl des URLs affectées.

Corriger les problèmes de canonical

Si une page est exclue avec le statut "Page alternative avec balise canonical correcte", vérifiez que la canonical pointe bien vers la bonne URL. Cas à vérifier : canonical en HTTP alors que le site est en HTTPS, canonical avec www alors que l'URL principale est sans www, canonical vers une page de pagination au lieu de la page 1, ou canonical auto-référentiel mal formé (avec des paramètres inutiles).

Résoudre les erreurs 404 persistantes

Pour chaque 404 signalée dans GSC, trois options : créer une redirection 301 vers l'URL de remplacement la plus pertinente (recommandé si des backlinks pointaient vers l'URL), recréer la page si elle a été supprimée par erreur, ou ne rien faire si la page n'avait aucune valeur et aucun lien entrant. Les 404 sans backlinks et sans valeur peuvent être laissées telles quelles : Google finit par les retirer de son index.

Traiter le "crawlé mais pas encore indexé"

Ce statut est le plus complexe car il n'indique pas la cause précise. Voici l'ordre d'investigation recommandé : comparez la longueur et la qualité du contenu avec les pages concurrentes indexées sur le même sujet. Vérifiez que la page reçoit des liens internes depuis des pages déjà indexées. Regardez si le contenu est trop similaire à une autre page déjà indexée sur votre site. Enrichissez le contenu pour le rendre plus substantiel et plus unique, puis demandez une reindexation.

07 Accélérer l'indexation de nouvelles pages

Publier une page et attendre que Google la trouve seul peut prendre des semaines. Ces techniques permettent d'accélérer significativement le processus.

Soumission manuelle via l'URL Inspection Tool

C'est la méthode la plus directe. Dans GSC, collez l'URL dans la barre de recherche, cliquez sur "Demander l'indexation". Google place la page dans sa file de crawl prioritaire. La prise en compte se fait généralement en quelques heures à quelques jours. Limitez-vous aux pages importantes : la soumission manuelle a un quota quotidien.

Le sitemap XML comme signal de découverte

Un sitemap XML à jour soumis dans GSC informe Google de l'existence de toutes vos pages. Pour les nouvelles publications, mettez à jour votre sitemap immédiatement et soumettez-le à nouveau dans GSC. La plupart des CMS gèrent ça automatiquement via des plugins (Yoast, Rank Math sur WordPress).

Un sitemap efficace ne liste que des URLs canoniques, sans redirections, sans pages noindex, et sans erreurs. Un sitemap de mauvaise qualité (plein de 404 ou de redirections) dégrade votre crédibilité auprès de Googlebot.

Le maillage interne comme accélérateur

Ajoutez un lien contextuel vers votre nouvelle page depuis une page déjà bien crawlée, de préférence une page populaire ou récemment mise à jour. Googlebot suit les liens lors de ses visites régulières : un lien depuis une page crawlée fréquemment est une invitation directe à visiter votre nouvelle page rapidement.

IndexNow : le protocole de notification instantanée

IndexNow est un protocole open source qui permet de notifier instantanément les moteurs de recherche (Bing, Yandex, et indirectement Google via la validation de l'information) qu'une URL a été créée ou modifiée. Il ne remplace pas la soumission GSC pour Google, mais accélère la prise en compte sur Bing, qui partage parfois les données de crawl. Cloudflare et plusieurs CMS proposent des intégrations natives d'IndexNow.

💡
ASTUCE : MISE A JOUR = NOUVEAU CRAWL Mettre à jour une page existante (ajout de contenu, mise à jour d'une date) incite Google à la recrawler rapidement. Après cette visite, Googlebot suit souvent les nouveaux liens internes ajoutés vers la nouvelle page. C'est une technique d'accélération d'indexation par effet de levier sur des pages déjà bien crawlées.

08 Le cas particulier des sites JavaScript

Les sites construits avec des frameworks JavaScript modernes (React, Vue, Angular, Next.js, Nuxt.js) posent des défis spécifiques à l'indexation. Comprendre comment Googlebot traite le JavaScript est essentiel pour éviter des problèmes invisibles mais dévastateurs.

Comment Googlebot rend le JavaScript

Googlebot utilise une version de Chromium pour rendre le JavaScript, mais avec un délai. Le processus en deux vagues de John Mueller (anciennement de Google) le résume bien : Googlebot crawle d'abord le HTML brut (vague 1), puis place la page dans une file de rendu JavaScript qui est traitée plus tard (vague 2). Ce délai peut aller de quelques secondes à plusieurs jours selon la charge des serveurs de Google.

Les architectures à risque

Architecture Risque d'indexation Recommandation
SPA classique (CSR pur) Élevé Implémenter SSR ou prerendering obligatoire
Next.js avec SSR Faible Vérifier que le rendu serveur fonctionne pour toutes les routes
Next.js avec SSG (pages statiques) Très faible Architecture idéale pour l'indexation
Site WordPress classique Très faible HTML servi directement, pas de problème de rendu JS
Site avec prerendering (Prerender.io) Faible Efficace mais ajoute une couche de complexité à maintenir

Diagnostiquer un problème de rendu JavaScript

Dans l'URL Inspection Tool de GSC, comparez la version "HTML brut" et la version "rendue" de votre page. Si le contenu principal n'apparaît que dans la version rendue, vous êtes dépendant du rendu JavaScript de Google. Vérifiez aussi la capture d'écran : si la page est blanche ou incomplète, le rendu a échoué.

09 Surveillance continue et alertes

Les problèmes d'indexation apparaissent souvent sans prévenir : après une mise à jour de thème, un déploiement bâclé, ou une migration. Une surveillance continue évite de les découvrir des semaines trop tard.

Mettre en place des alertes dans GSC

Google Search Console envoie des emails automatiques quand des erreurs d'indexation significatives sont détectées. Vérifiez que votre compte GSC est configuré pour recevoir ces notifications. Connectez-vous régulièrement (au minimum une fois par semaine sur des sites actifs) pour surveiller l'évolution du rapport Couverture.

Surveiller le nombre de pages indexées

Faites un relevé mensuel du nombre de pages indexées via site:votredomaine.fr et via GSC. Une chute soudaine du nombre de pages indexées est un signal d'alarme qui nécessite une investigation immédiate. Les causes possibles : mise à jour de contenu qui a déclenché du noindex en masse, migration ratée, attaque de contenu négatif ou déploiement d'un fichier robots.txt trop restrictif.

Outils de monitoring tiers

Outil Ce qu'il surveille Prix
Google Search Console Statuts d'indexation, erreurs de couverture, alertes automatiques Gratuit
Screaming Frog Crawl programmé, détection des noindex, redirections et 404 Gratuit / Payant
Ahrefs Site Audit Suivi hebdomadaire des erreurs d'indexation, alertes, évolution Payant
Semrush Site Audit Crawl planifié, rapport d'indexabilité, alertes configurables Payant
Sitechecker Pro Surveillance en temps réel des changements d'indexation Freemium
🚨
ALERTE ROUGE : CAS A TRAITER EN URGENCE Une chute soudaine de plus de 20% des pages indexées en moins de 48h. Une page stratégique qui passe en statut noindex ou 404. L'ensemble du site bloqué par robots.txt. Des erreurs 5XX sur plus de 10% des URLs. Ces situations nécessitent une correction immédiate car chaque heure perdue peut entraîner une désindexation durable et une perte de trafic difficile à récupérer.

10 Checklist d'indexation en 25 points

Utilisez cette checklist lors de chaque audit, après chaque migration ou déploiement majeur, et comme point de contrôle mensuel.

Vérifications de base

  • Vérifier que le fichier robots.txt n'est pas trop restrictif (site:votredomaine.fr > nombre de résultats cohérent)
  • Contrôler que le mode "noindex global" du CMS n'est pas activé en production
  • Vérifier que toutes les pages stratégiques n'ont pas de balise noindex via un crawl Screaming Frog
  • Confirmer que le sitemap XML est soumis et accessible dans GSC
  • S'assurer que le sitemap ne contient que des URLs canoniques sans redirections ni erreurs

Rapport Couverture GSC

  • Vérifier le rapport Couverture : aucune augmentation soudaine des erreurs
  • Investiguer toutes les URLs en statut "Crawlé, pas encore indexé" (contenu, maillage, qualité)
  • Identifier les pages en "Découvert, pas encore crawlé" et améliorer leur maillage interne
  • Traiter toutes les erreurs 404 signalées (redirection ou suppression propre)
  • Vérifier qu'aucune erreur 5XX n'est présente ou persistante

Canonicals et duplications

  • Vérifier que les canonicals pointent toujours vers les bonnes URLs (notamment après une migration)
  • Contrôler l'absence de canonical chains (A pointe vers B qui pointe vers C)
  • S'assurer qu'HTTP redirige vers HTTPS, sans boucle ni canonical en HTTP
  • Vérifier que les variantes www et sans-www sont correctement gérées
  • Détecter les pages de contenu dupliqué sans canonical résolutif

Crawl budget et architecture

  • Identifier et bloquer les URLs sans valeur SEO dans robots.txt (paramètres, filtres, sessions)
  • Vérifier que les pages importantes sont accessibles en 3 clics maximum
  • Corriger les redirections en cascade (A>B>C : remplacer par A>C directement)
  • Surveiller le log de crawl pour détecter les anomalies de budget (si accès aux logs serveur disponible)

JavaScript et rendu

  • Tester la version rendue des pages principales via l'URL Inspection Tool
  • S'assurer que le contenu critique n'est pas exclusivement chargé via JavaScript côté client
  • Vérifier que les balises meta robots et canonical sont présentes dans le HTML initial (pas injectées par JS)

Nouvelles pages

  • Chaque nouvelle page est soumise manuellement via GSC après publication
  • Chaque nouvelle page reçoit au moins 2 liens internes contextuels depuis des pages existantes
  • Le sitemap est mis à jour automatiquement à chaque nouvelle publication
🚀
DIAGNOSTIC EN 5 MINUTES Si vous suspectez un problème d'indexation sur une URL précise : (1) URL Inspection dans GSC pour voir le statut exact. (2) Regardez la capture d'écran rendue. (3) Vérifiez le code source de la page pour une balise noindex. (4) Testez votredomaine.fr/robots.txt pour une règle Disallow. (5) Vérifiez le canonical dans le <head>. Ces 5 étapes couvrent 90% des causes de non-indexation en moins de 5 minutes.