vad Crawl Budget betyder för Googlebot

Måndag 16 januari 2017

nyligen har vi hört ett antal definitioner för “crawl budget”, men vi har inte en enda term som skulle beskriva allt som “crawl budget” står för externt. Med det här inlägget kommer vi att klargöra vad vi faktiskt har och vad det betyder för Googlebot.

först vill vi betona att crawl-budgeten, som beskrivs nedan, inte är något som de flesta utgivare behöver oroa sig för. Om nya sidor tenderar att genomsökas samma dag som de publiceras, är genomsökningsbudget inte något som webbansvariga behöver fokusera på. På samma sätt, om en webbplats har färre än några tusen webbadresser, kommer den oftast att genomsökas effektivt.

att prioritera vad som ska genomsökas, när och hur mycket resurs servern som är värd för webbplatsen kan allokera till genomsökning är viktigare för större webbplatser, eller de som automatiskt genererar sidor baserat på URL-parametrar, till exempel.

Crawl rate limit

Googlebot är utformad för att vara en god medborgare på webben. Genomsökning är dess huvudprioritet, samtidigt som du ser till att det inte försämrar upplevelsen av användare som besöker webbplatsen. Vi kallar detta “crawl rate limit”, som begränsar den maximala hämtningshastigheten för en viss webbplats.

enkelt uttryckt representerar detta antalet samtidiga parallella anslutningar som Googlebot kan använda för att genomsöka webbplatsen, liksom den tid den måste vänta mellan hämtningarna. Genomsökningshastigheten kan gå upp och ner baserat på ett par faktorer:

  • Crawl health: om webbplatsen svarar riktigt snabbt ett tag går gränsen upp, vilket innebär att fler anslutningar kan användas för att krypa. Om webbplatsen saktar ner eller svarar med serverfel går gränsen ner och Googlebot kryper mindre.
  • gräns i Search Console: webbplatsägare kan minska Googlebots genomsökning av sin webbplats. Observera att Inställning av högre gränser inte automatiskt ökar genomsökningen.

Crawl-efterfrågan

även om gränsen för genomsökningshastighet inte uppnås, om det inte finns någon efterfrågan från indexering, kommer det att finnas låg aktivitet från Googlebot. De två faktorer som spelar en viktig roll för att bestämma crawl efterfrågan är:

  • Popularitet: Webbadresser som är mer populära på Internet tenderar att genomsökas oftare för att hålla dem fräschare i vårt index.
  • Staleness: våra system försöker förhindra att webbadresser blir inaktuella i indexet.

dessutom kan webbplatsövergripande händelser som webbplatsflyttningar utlösa en ökning av crawl-efterfrågan för att indexera innehållet under de nya webbadresserna.

med crawl rate och crawl efterfrågan tillsammans definierar vi crawl budget som antalet webbadresser Googlebot kan och vill genomsöka.

faktorer som påverkar genomsökningsbudgeten

enligt vår analys kan många URL-adresser med lågt värde negativt påverka en webbplats genomsökning och indexering. Vi fann att webbadresserna med lågt värde läggs till i dessa kategorier, i storleksordning:

  • fasetterade navigations-och sessionsidentifierare
  • duplicerat innehåll på plats
  • mjuka felsidor
  • hackade sidor
  • oändliga utrymmen och fullmakter
  • låg kvalitet och skräppostinnehåll

slösa server resurser på sidor som dessa dränerar genomsökningsaktivitet från sidor som faktiskt har värde, vilket kan orsaka en betydande försening när det gäller att upptäcka bra innehåll på en webbplats.

Toppfrågor

genomsökning är ingångspunkten för webbplatser i Googles sökresultat. Effektiv genomsökning av en webbplats hjälper till med indexeringen i Google-sökning.

påverkar webbplatsens hastighet min genomsökningsbudget? Vad sägs om fel?

att göra en webbplats snabbare förbättrar användarnas upplevelse samtidigt som den ökar genomsökningshastigheten. För Googlebot är en snabb webbplats ett tecken på friska servrar, så det kan få mer innehåll över samma antal anslutningar. På baksidan signalerar ett betydande antal 5xx-fel eller anslutningstider motsatsen, och krypningen saktar ner.

vi rekommenderar att du är uppmärksam på rapporten genomsökningsfel i Search Console och håller antalet serverfel lågt.

är genomsökning en rankningsfaktor?

en ökad genomsökningshastighet leder inte nödvändigtvis till bättre positioner i sökresultaten. Google använder hundratals signaler för att rangordna resultaten, och medan genomsökning är nödvändig för att vara i resultaten är det inte en rankningssignal.

räknas alternativa webbadresser och inbäddat innehåll i genomsökningsbudgeten?

i allmänhet räknas alla webbadresser som Googlebot genomsöker mot webbplatsens genomsökningsbudget. Alternativa webbadresser, som AMP eller hreflang, samt inbäddat innehåll, som CSS och JavaScript, inklusive Ajax (som XHR) – samtal, kan behöva genomsökas och kommer att konsumera en webbplats genomsökningsbudget. På samma sätt kan långa omdirigeringskedjor ha en negativ effekt på krypning.

kan jag styra Googlebot med” crawl-delay ” – direktivet?

de icke-standardiserade “crawl-delay” robotarna.Txt-direktivet behandlas inte av Googlebot.

påverkar nofollow-direktivet crawl-budgeten?

det beror på. En URL som genomsöks påverkar genomsökningsbudgeten, så även om din sida markerar en URL som nofollow kan den fortfarande genomsökas om en annan sida på din webbplats eller någon sida på webben inte märker länken som nofollow.

gör webbadresser som jag inte tillåter genom robotar.Txt påverka min crawl budget på något sätt?

Nej, otillåtna webbadresser påverkar inte genomsökningsbudgeten.

för information om hur du optimerar genomsökning av din webbplats, ta en titt på vårt blogginlägg om optimering av genomsökning från 2009 som fortfarande är tillämpligt. Om du har frågor, fråga i forumet!

Inlagd av Gary, genomsökning och indexering lag

Leave a Reply