Articles / iunie 12, 2021

ce înseamnă Crawl Budget pentru Googlebot

luni, ianuarie 16, 2017

recent, am auzit o serie de definiții pentru “crawl budget”, cu toate acestea, nu avem un singur termen care să descrie tot ceea ce “crawl budget” înseamnă extern. Cu această postare vom clarifica ce avem de fapt și ce înseamnă pentru Googlebot.

în primul rând, am dori să subliniem că bugetul crawl, așa cum este descris mai jos, nu este ceva de care majoritatea editorilor trebuie să se îngrijoreze. Dacă paginile noi tind să fie accesate cu crawlere în aceeași zi în care sunt publicate, bugetul de accesare cu crawlere nu este ceva pe care webmasterii trebuie să se concentreze. De asemenea, dacă un site are mai puțin de câteva mii de adrese URL, de cele mai multe ori va fi accesat cu crawlere eficient.

prioritizarea a ceea ce se accesează cu crawlere, când și câtă resursă poate aloca serverul care găzduiește site-ul pentru accesarea cu crawlere este mai importantă pentru site-urile mai mari sau pentru cele care generează automat pagini pe baza parametrilor URL, de exemplu.

limita ratei de accesare cu crawlere

Googlebot este conceput pentru a fi un bun cetățean al web-ului. Accesarea cu crawlere este principala sa prioritate, asigurându-se în același timp că nu degradează experiența utilizatorilor care vizitează site-ul. Numim aceasta “limita ratei de accesare cu crawlere”, care limitează rata maximă de preluare pentru un anumit site.

mai simplu spus, acesta reprezintă numărul de conexiuni paralele simultane pe care Googlebot le poate folosi pentru a accesa cu crawlere site-ul, precum și timpul pe care trebuie să-l aștepte între preluări. Rata de accesare cu crawlere poate merge în sus și în jos pe baza câtorva factori:

sănătate Crawl: dacă site-ul răspunde foarte repede pentru o vreme, limita crește, ceea ce înseamnă că mai multe conexiuni pot fi folosite pentru a accesa cu crawlere. Dacă site-ul încetinește sau răspunde cu erori de server, limita scade și Googlebot se târăște mai puțin.
limita setată în Search Console: proprietarii de site-uri web pot reduce accesarea cu crawlere a site-ului Googlebot. Rețineți că setarea limitelor mai mari nu crește automat accesarea cu crawlere.

cerere de accesare cu crawlere

chiar dacă limita ratei de accesare cu crawlere nu este atinsă, dacă nu există cerere de indexare, va exista o activitate scăzută de la Googlebot. Cei doi factori care joacă un rol semnificativ în determinarea cererii de accesare cu crawlere sunt:

Popularitate: Adresele URL care sunt mai populare pe Internet tind să fie accesate cu crawlere mai des pentru a le menține mai proaspete în indexul nostru.
Staleness: sistemele noastre încearcă să împiedice URL-urile să devină învechite în index.

în plus, evenimentele la nivel de site, cum ar fi mișcările site-ului, pot declanșa o creștere a cererii de accesare cu crawlere pentru a reindexa conținutul sub noile adrese URL.

luând rata de accesare cu crawlere și cererea de accesare cu crawlere împreună definim bugetul de accesare cu crawlere ca numărul de adrese URL Googlebot poate și dorește să acceseze cu crawlere.

factorii care afectează bugetul de accesare cu crawlere

conform analizei noastre, a avea multe adrese URL cu valoare adăugată scăzută poate afecta negativ accesarea cu crawlere și indexarea unui site. Am constatat că URL-urile cu valoare adăugată scăzută se încadrează în aceste categorii, în ordinea semnificației:

identificatori de navigare și sesiune fațete
conținut duplicat la fața locului
pagini de eroare Soft
pagini piratate
spații și proxy-uri Infinite
conținut de calitate scăzută și spam

irosirea serverului resursele de pe pagini ca acestea vor scurge activitatea de accesare cu crawlere din paginile care au de fapt valoare, ceea ce poate provoca o întârziere semnificativă în descoperirea conținutului excelent pe un site.

Top întrebări

Crawling este punctul de intrare pentru site-uri în rezultatele căutării Google. Accesarea cu crawlere eficientă a unui site web ajută la indexarea acestuia în Căutarea Google.

viteza site-ului afectează bugetul meu de accesare cu crawlere? Ce zici de erori?

realizarea unui site mai rapid îmbunătățește experiența utilizatorilor, crescând în același timp rata de accesare cu crawlere. Pentru Googlebot, un site rapid este un semn al serverelor sănătoase, astfel încât poate obține mai mult conținut pe același număr de conexiuni. Pe de altă parte, un număr semnificativ de erori 5xx sau timeout-uri de conectare semnalează contrariul, iar crawling-ul încetinește.

vă recomandăm să acordați atenție raportului de erori de accesare cu crawlere din Search Console și să mențineți numărul de erori de server scăzut.

este crawling un factor de clasament?

o rată crescută de accesare cu crawlere nu va duce neapărat la poziții mai bune în rezultatele căutării. Google folosește sute de semnale pentru a clasifica rezultatele și, deși accesarea cu crawlere este necesară pentru a fi în rezultate, nu este un semnal de clasare.

URL-urile alternative și conținutul încorporat contează în bugetul de accesare cu crawlere?

în general, orice adresă URL pe care Googlebot o accesează cu crawlere va fi luată în considerare pentru bugetul de accesare cu crawlere al unui site. URL-urile alternative, cum ar fi AMP sau hreflang, precum și conținutul încorporat, cum ar fi CSS și JavaScript, inclusiv apelurile AJAX (cum ar fi XHR), pot fi accesate cu crawlere și vor consuma bugetul de accesare cu crawlere al unui site. În mod similar, lanțurile de redirecționare lungi pot avea un efect negativ asupra accesării cu crawlere.

pot controla Googlebot cu Directiva “crawl-delay”?

roboții non-standard “crawl-delay”.Directiva txt nu este procesată de Googlebot.

Directiva nofollow afectează bugetul crawl?

depinde. Orice adresă URL care este accesată cu crawlere afectează bugetul de accesare cu crawlere, astfel încât, chiar dacă pagina dvs. marchează o adresă URL ca nofollow, aceasta poate fi accesată cu crawlere dacă o altă pagină de pe site-ul dvs. sau orice pagină de pe web nu etichetează linkul ca nofollow.

Nu URL-uri am interzis prin roboți.txt afecta bugetul meu crawl în nici un fel?

nu, adresele URL nepermise nu afectează bugetul de accesare cu crawlere.

pentru informații despre cum să optimizați accesarea cu crawlere a site-ului dvs., aruncați o privire la postarea noastră pe blog despre optimizarea accesării cu crawlere din 2009, care este încă aplicabilă. Dacă aveți întrebări, întrebați în forumuri!

postat de Gary, Crawling și echipe de indexare

International Blogging Network