Ce que signifie le Budget d’exploration pour Googlebot
Lundi 16 janvier 2017
Récemment, nous avons entendu un certain nombre de définitions pour “budget d’exploration”, mais nous n’avons pas un seul terme qui décrirait tout ce que “budget d’exploration” signifie en externe. Avec ce post, nous clarifierons ce que nous avons réellement et ce que cela signifie pour Googlebot.
Tout d’abord, nous tenons à souligner que le budget d’exploration, tel que décrit ci-dessous, n’est pas quelque chose dont la plupart des éditeurs ont à s’inquiéter. Si les nouvelles pages ont tendance à être explorées le jour même de leur publication, le budget d’exploration n’est pas quelque chose sur lequel les webmasters doivent se concentrer. De même, si un site a moins de quelques milliers d’URL, la plupart du temps, il sera analysé efficacement.
Il est plus important de prioriser ce qu’il faut analyser, quand et combien de ressources le serveur hébergeant le site peut allouer à l’analyse pour les sites plus grands ou ceux qui génèrent automatiquement des pages en fonction des paramètres d’URL, par exemple.
Limite de taux d’exploration
Googlebot est conçu pour être un bon citoyen du web. L’exploration est sa principale priorité, tout en s’assurant qu’elle ne dégrade pas l’expérience des utilisateurs visitant le site. Nous appelons cela la “limite de taux d’exploration”, qui limite le taux d’extraction maximal pour un site donné.
En termes simples, cela représente le nombre de connexions parallèles simultanées que Googlebot peut utiliser pour explorer le site, ainsi que le temps d’attente entre les récupérations. Le taux d’exploration peut monter et descendre en fonction de quelques facteurs:
- Santé de l’exploration: Si le site répond très rapidement pendant un certain temps, la limite augmente, ce qui signifie que plus de connexions peuvent être utilisées pour l’exploration. Si le site ralentit ou répond par des erreurs de serveur, la limite diminue et Googlebot explore moins.
- Limite définie dans la console de recherche: Les propriétaires de sites Web peuvent réduire l’exploration de leur site par Googlebot. Notez que la définition de limites plus élevées n’augmente pas automatiquement l’exploration.
Demande d’exploration
Même si la limite de taux d’exploration n’est pas atteinte, s’il n’y a pas de demande d’indexation, l’activité de Googlebot sera faible. Les deux facteurs qui jouent un rôle important dans la détermination de la demande d’exploration sont:
- Popularité: Les URL les plus populaires sur Internet ont tendance à être explorées plus souvent pour les garder plus fraîches dans notre index.
- Staleness: Nos systèmes tentent d’empêcher les URL de devenir obsolètes dans l’index.
De plus, des événements à l’échelle du site tels que des déplacements de site peuvent déclencher une augmentation de la demande d’analyse afin de réindexer le contenu sous les nouvelles URL.
En prenant ensemble le taux d’exploration et la demande d’exploration, nous définissons le budget d’exploration comme le nombre d’URL que Googlebot peut et veut explorer.
Facteurs affectant le budget d’analyse
Selon notre analyse, le fait d’avoir de nombreuses URL à faible valeur ajoutée peut affecter négativement l’analyse et l’indexation d’un site. Nous avons constaté que les URL à faible valeur ajoutée entrent dans ces catégories, par ordre de signification:
- Identificateurs de navigation et de session à facettes
- Contenu en double sur site
- Pages d’erreur douce
- Pages piratées
- Espaces et proxys infinis
- Contenu de mauvaise qualité et de spam
Serveur gaspilleur les ressources sur de telles pages draineront l’activité d’exploration des pages qui ont réellement de la valeur, ce qui peut retarder considérablement la découverte d’un excellent contenu sur un site.
Questions principales
L’exploration est le point d’entrée des sites dans les résultats de recherche de Google. L’exploration efficace d’un site Web aide à son indexation dans la recherche Google.
La vitesse du site affecte-t-elle mon budget d’exploration ? Que diriez-vous des erreurs?
Rendre un site plus rapide améliore l’expérience des utilisateurs tout en augmentant le taux d’exploration. Pour Googlebot, un site rapide est un signe de serveurs sains, il peut donc obtenir plus de contenu sur le même nombre de connexions. D’un autre côté, un nombre important d’erreurs 5xx ou de délais d’attente de connexion signalent le contraire, et l’exploration ralentit.
Nous vous recommandons de faire attention au rapport d’erreurs d’analyse dans la console de recherche et de limiter le nombre d’erreurs du serveur.
L’exploration est-elle un facteur de classement?
Un taux d’exploration accru ne conduira pas nécessairement à de meilleures positions dans les résultats de recherche. Google utilise des centaines de signaux pour classer les résultats, et bien que l’exploration soit nécessaire pour être dans les résultats, ce n’est pas un signal de classement.
Les URL alternatives et le contenu intégré comptent-ils dans le budget d’analyse ?
En règle générale, toute URL explorée par Googlebot sera prise en compte dans le budget d’exploration d’un site. Des URL alternatives, comme AMP ou hreflang, ainsi que du contenu intégré, comme CSS et JavaScript, y compris les appels AJAX (comme XHR), peuvent devoir être explorés et consommer le budget d’exploration d’un site. De même, les longues chaînes de redirection peuvent avoir un effet négatif sur le rampement.
Puis-je contrôler Googlebot avec la directive “crawl-delay” ?
Les robots “crawl-delay” non standard.la directive txt n’est pas traitée par Googlebot.
La directive nofollow affecte-t-elle le budget d’exploration ?
Ça dépend. Ainsi, même si votre page marque une URL comme nofollow, elle peut toujours être explorée si une autre page de votre site, ou une page du Web, n’étiquette pas le lien comme nofollow.
Les URL que j’ai refusées par les robots.txt affecte mon budget d’exploration de quelque manière que ce soit?
Non, les URL non autorisées n’affectent pas le budget d’analyse.
Pour plus d’informations sur la façon d’optimiser l’exploration de votre site, consultez notre article de blog sur l’optimisation de l’exploration de 2009 qui est toujours d’application. Si vous avez des questions, demandez dans les forums!
Publié par Gary, équipes d’exploration et d’indexation
Leave a Reply