Lorsque nous parlons de suivi et d'indexation, il est toujours associé à Google. Nous nous appuyons sur leurs propres brevets pour déterminer comment nous allons optimiser notre contenu. Mais le mieux est de comprendre comment fonctionne le moteur de recherche Google.
En un mot, Google suit des milliards d'URL via ses robots (l'araignée) et les stocke sur ses périphériques de stockage. Une fois stockées, il les classe et les filtre afin d'établir quelles URL vont être indexées et quelles URL ne vont pas être indexées.
Et pour tordre un peu plus la boucle on peut faire une petite différence entre indexation et listing.
Indexation : Google inclut l'url dans son index d'url (base de données de contenu).
Liste : contenu qui est présenté à l'utilisateur dans les résultats de la recherche.
Tout le contenu indexé n'est pas affiché à l'utilisateur, car cela dépend de nombreux algorithmes et de filtres qui obligeront Google à afficher ce contenu à une requête d'utilisateur.
Sommaire
Signification de traces
Par conséquent, l'exploration est la recherche de nouveau contenu effectuée par le ou les moteurs de recherche dans une certaine URL. Le moteur de recherche (araignée) suit tout le contenu d'une URL spécifique et saute et découvre d'autres URL (nouvelles ou anciennes) à travers les liens
Comment pouvons-nous empêcher une page d'être crawlée ?
Le seul moyen d'empêcher l'exploration d'une page est d'utiliser robots.txt. Il suffit d'ajouter la ligne de blocage d'url dans le fichier robots.txt.
Voici la vidéo complète où j'explique tout étape par étape.
Nous devons garder à l'esprit que les moteurs de recherche Google peuvent commencer à explorer un certain site Web pour deux raisons :
- Plan du site envoyé par le propriétaire du site Web.
- Liens externes pointant vers le site.
Dans ce lien, vous pouvez en apprendre un peu plus sur le fonctionnement de la recherche et du suivi Google
Signification de l'indexation
L'indexation se produit lorsqu'une certaine URL est incluse par Google dans son index de pages Web.
Une page indexable est une page qui permet l'indexation dans Google.
Qu'est-ce qui rend une page indexable ?
Une page indexable sera celle qui a un statut de 200 et qui n'a pas non plus la balise metarobots noindex, qui n'est pas redirigée et qui n'est pas canonisée. Il y a d'autres raisons, mais elles sont plus élaborées.
Gardez à l'esprit que si nous ne mettons pas la balise noindex dans les métarobots, Google la prendra comme index.
Si on ne met pas le canonique de la page, Google prendra le canonique qu'il veut. Même si nous nous trompons trop avec les canoniques, Google nous ignorera et prendra également le canonique qu'il jugera bon.
Nous devons nous rappeler que le canonique est une balise de suggestion à Google, où nous "suggérons" que la page vraiment importante est celle que nous avons mise dans ce canonique.
Lorsqu'une URL a un canonique autre qu'elle-même, on dit qu'elle est canonisée.
Une page redirigée est une page qui, lorsque vous entrez (utilisateur et moteurs de recherche), vous redirige vers une autre page. Il existe deux types de redirections : 302 (temporaire) et 301 (permanente). La chose normale est d'utiliser des redirections 301, car lors de l'utilisation de redirections 302, Google ne transmettra pas l'autorité de la première à la seconde.
Comment connaissons-nous les URL indexées que nous avons ?
On peut utiliser un outil comme Screaming Frog pour vraiment savoir quelles sont les urls indexables.
Une fois que nous analysons un projet en mode araignée avec Screaming Frog, nous procédons comme suit :
- Nous choisissons de ne voir que les URL HTML, afin qu'il ne nous montre pas le js, le css ou les images.
- Nous cliquons sur l'indexabilité pour filtrer par cette colonne.
De cette façon, nous pouvons voir que le nombre d'urls indexables est de 53.
Est-ce que indexable est identique à indexé ?
Et bien non. Une chose est que nous les optimisons pour qu'ils puissent être indexés et une autre est que Google les a indexés.
Comment voir les pages qui ne sont pas indexées dans Google ?
Conformément à ce qui précède, si nous utilisons Screaming Frog, nous intégrons l'API Search Consol et elle inclura une colonne appelée état d'indexabilité. Mais cette colonne ne dit pas si elle est indexée ou non.
Nous avons donc besoin d'une autre méthode. Je le fais de deux manières :
1ère façon avec Sheet et Search console.
- Nous exportons les URL indexables (du point précédent) depuis Screaming Frog. Et nous les incluons dans une feuille.
- Nous entrons dans la Search Console. Et nous faisons ce qui suit :
- Cliquez sur Couverture
- Nous sélectionnons "Valide"
- Nous exportons.
- Nous assemblons la feuille Google
- 1ère page on met les urls indexables
- Nous ajoutons une colonne "indexée"
- 2e feuille pour les URL exportées depuis la Search Console.
- Et nous ajoutons à chacun d'eux une colonne et nous mettons "oui" dans toutes les lignes.
- Nous revenons à la première feuille et utilisons la formule searchv afin qu'elle recherche l'URL qui se trouve dans la première colonne de la feuille de la console de recherche et renvoie la colonne 2. La formule serait
=SI.ERREUR(RECHERCHEV(A2;'Rechercher dans la console'!$A$2:$B$94;2;FALSE);"Non")
C'est un moyen un peu plus laborieux, mais c'est le seul moyen que nous connaissions pour pouvoir vérifier gratuitement l'indexation d'un projet. Avant cela pouvait se faire d'une autre manière totalement gratuite aussi, mais… plus maintenant.
La création du tableau avec la formule que je vous ai donnée est très simple. Cependant, si vous en avez besoin, je laisse le modèle ici pour que vous l'utilisiez encore plus facilement. N'oubliez pas de faire une copie du modèle, car vous ne pouvez pas modifier le mien.
Télécharger le modèle
2ª forma de comprobar la indexación: URL profiler
Es una función de pago. Para ello necesitas contratar Urlprofiler. Puedes probarlo durante 14 días. Pero es casi obligatorio usar proxys.
Por lo que tendrás que contratar un paquete de proxys para usarlo con esta herramienta.
3ª Opción: Una herramienta sorpresa…
Todavía no es oficial, pero se espera que en las próximas semanas tengamos una herramienta desarrollada por un SEO español, capaz de comprobar la indexación, sin proxys, sin nada.
Diferencia entre Reastreo e Indexación
Las dos palabras son totalmente diferentes. El rastreo es la búsqueda de contenido por parte de Google y la indexación es la inclusión en su índice. Pero hay mucha controversia con esto del rastreo y la indexación.
¿Entonces si una url no se puede rastrear tampoco se puede indexar?
Pues no. Esto es totalmente falso. Una Url puede ser bloqueada en el robots.txt y ser indexada al mismo tiempo.
Si la url en concreto tiene otra señal muy potente (enlaces internos, enlaces externos) que indica a Google que puede ser interesante, Google la va a indexar, pero no mostrará la metadescripción ni los datos estructurados.
Además el título suele ser el Anchor del enlace desde donde ha llegado Google.
Un ejemplo lo tenemos en la página de los amigos de Funnel Punk (Lino Urruñuela y Dani Pinillos).
Como comprobamos en la imagen, el robots.txt está bloqueando totalmente al todos los robots.
Y como podemos comprobar en la imagen, la url está indexada en Google.
Por tanto la respuesta es Rotundamente NO.
Si queremos que una url no se indexe debemos hacer lo siguiente:
- Ponerla como noindex
- Canonicalizarla (ojo con esto)
- Mettez un mot de passe sur la page ou le répertoire.
- le rediriger
- Changez le statut en 410 (signifie que la page n'existera jamais)
J'ai en fait utilisé d'autres méthodes, comme forcer une erreur 50x (erreur de serveur) pour désindexer le contenu et l'utiliser sur un domaine différent… mais c'est une autre histoire.
Si cela a été utile, mettez-le dans les commentaires. Je serai attentif à toute suggestion ou question pour y répondre dans les plus brefs délais.
Laisser un commentaire