wat betekent Crawl Budget voor Googlebot

maandag 16 januari 2017

onlangs hebben we een aantal definities gehoord voor “crawl budget”, maar we hebben geen enkele term die alles zou beschrijven waar “crawl budget” voor staat extern. Met deze post zullen we verduidelijken wat we eigenlijk hebben en wat het betekent voor Googlebot.Ten eerste willen we benadrukken dat crawl budget, zoals hieronder beschreven, niet iets is waar de meeste uitgevers zich zorgen over hoeven te maken. Als nieuwe pagina ‘ s de neiging om te worden gekropen op dezelfde dag dat ze zijn gepubliceerd, crawl budget is niet iets webmasters nodig hebben om zich te concentreren op. Evenzo, als een site heeft minder dan een paar duizend URL ‘ s, de meeste van de tijd zal efficiënt worden gekropen.

prioriteren wat te crawlen, wanneer en hoeveel resource de server die de site host kan toewijzen aan crawlen is belangrijker voor grotere sites, of voor sites die automatisch pagina ‘ s genereren op basis van URL-parameters, bijvoorbeeld.

Crawl rate limit

Googlebot is ontworpen om een goede burger van het web te zijn. Kruipen is de belangrijkste prioriteit, terwijl ervoor te zorgen dat het niet degraderen van de ervaring van gebruikers die de site bezoeken. We noemen dit de” crawl rate limit”, die de maximale fetching rate voor een bepaalde site beperkt.

simpel gezegd, dit geeft het aantal gelijktijdige parallelle verbindingen weer die Googlebot kan gebruiken om de site te doorzoeken, evenals de tijd die het moet wachten tussen de fetches. De crawl rate kan op en neer gaan op basis van een paar factoren:

  • Crawl health: als de site echt snel reageert voor een tijdje, de limiet gaat omhoog, wat betekent dat meer verbindingen kunnen worden gebruikt om te kruipen. Als de site vertraagt of reageert met server fouten, de limiet daalt en Googlebot kruipt minder.
  • limiet ingesteld in de Zoekconsole: Website-eigenaren kunnen Googlebot ‘ s crawling van hun site verminderen. Merk op dat het instellen van hogere limieten niet automatisch verhoogt kruipen.

Crawl vraag

zelfs als de crawl rate limiet niet wordt bereikt, als er geen vraag is van indexering, zal er een lage activiteit zijn van Googlebot. De twee factoren die een belangrijke rol spelen bij het bepalen van de crawl-vraag zijn::

  • Populariteit: Url ‘ s die populairder zijn op het Internet hebben de neiging om vaker te worden gekropen om ze frisser in onze index te houden.
  • Staalheid: onze systemen proberen te voorkomen dat url ‘ s vervallen in de index.

bovendien kunnen sitebrede gebeurtenissen zoals siteverplaatsingen leiden tot een toename van de vraag naar crawl om de inhoud onder de nieuwe URL ‘ s opnieuw uit te lezen.

crawl rate en crawl demand samen definiëren we crawl budget als het aantal URL ‘ s dat Googlebot kan en wil crawlen.

factoren die van invloed zijn op crawl budget

volgens onze Analyse kan het hebben van veel url ‘ s met een lage toegevoegde waarde een negatieve invloed hebben op het crawlen en indexeren van een site. We ontdekten dat de URL ‘ s met een lage toegevoegde waarde in deze categorieën vallen, in volgorde van betekenis:

  • Faceted navigation and session identifiers
  • On-site duplicate content
  • Soft error pages
  • Hacked pages
  • Infinite spaces and proxies
  • Low quality and spam content

het verspillen van serverbronnen op pagina ‘s als deze zal crawl-activiteit afvoeren van pagina’ s die daadwerkelijk waarde hebben, wat een aanzienlijke vertraging kan veroorzaken bij het ontdekken van grote content op een site.

Top questions

Crawling is het toegangspunt voor sites in de zoekresultaten van Google. Efficiënt kruipen van een website helpt met de indexering in Google Zoeken.

heeft site snelheid invloed op mijn crawl budget? Hoe zit het met fouten?

het maken van een site sneller verbetert de gebruikerservaring, terwijl ook het verhogen van crawl rate. Voor Googlebot is een snelle site een teken van gezonde servers, zodat het meer inhoud kan krijgen over hetzelfde aantal verbindingen. Aan de andere kant, een aanzienlijk aantal 5xx fouten of verbinding timeouts signaleren het tegenovergestelde, en kruipen vertraagt.

we raden aan aandacht te besteden aan het Crawl Errors report in Search Console en het aantal serverfouten laag te houden.

is kruipen een ranking factor?

een verhoogde crawl rate zal niet noodzakelijkerwijs leiden tot betere posities in de zoekresultaten. Google gebruikt honderden signalen om de resultaten te rangschikken, en terwijl kruipen noodzakelijk is om in de resultaten te zijn, is het geen ranking signaal.

tellen alternatieve URL ‘ s en ingesloten content mee in het crawl-budget?

over het algemeen, elke URL die Googlebot kruipt zal tellen voor een Site crawl budget. Alternatieve URL ‘ s, zoals AMP of hreflang, evenals ingesloten inhoud, zoals CSS en JavaScript, met inbegrip van Ajax (zoals XHR) gesprekken, kan moeten worden gekropen en zal consumeren crawl budget van een site. Evenzo, lange redirect ketens kan een negatief effect hebben op kruipen.

kan ik Googlebot bedienen met de” crawl-delay ” – richtlijn?

de niet-standaard “crawl-delay” robots.txt-richtlijn wordt niet verwerkt door Googlebot.

heeft de nofollow-richtlijn gevolgen voor crawl budget?

dat hangt ervan af. Elke URL die wordt gekropen beïnvloedt crawl budget, dus zelfs als uw pagina markeert een URL als nofollow het kan nog steeds worden gekropen als een andere pagina op uw site, of een pagina op het web, de link niet label als nofollow.

Doe URL ‘ s die ik niet toegestaan door robots.heeft txt invloed op mijn crawl budget?

Nee, Niet-toegestane URL ‘ s hebben geen invloed op de crawl budget.

voor informatie over het optimaliseren van kruipen van uw site, neem een kijkje op onze blogpost over het optimaliseren van kruipen uit 2009 die nog steeds van toepassing is. Als je vragen hebt, stel dan in de forums!

geplaatst door Gary, Crawling and Indexing teams

Leave a Reply