Cosa significa Crawl Budget per Googlebot

Lunedì 16 gennaio 2017

Recentemente, abbiamo sentito una serie di definizioni per “crawl budget”, tuttavia non abbiamo un singolo termine che descriverebbe tutto ciò che “crawl budget” rappresenta esternamente. Con questo post chiariremo cosa abbiamo effettivamente e cosa significa per Googlebot.

Innanzitutto, vorremmo sottolineare che il budget di scansione, come descritto di seguito, non è qualcosa di cui la maggior parte degli editori deve preoccuparsi. Se le nuove pagine tendono ad essere scansionate lo stesso giorno in cui vengono pubblicate, il budget di scansione non è qualcosa su cui i webmaster devono concentrarsi. Allo stesso modo, se un sito ha meno di qualche migliaio di URL, la maggior parte del tempo verrà scansionato in modo efficiente.

Dare la priorità a cosa eseguire la scansione, quando e quanta risorsa il server che ospita il sito può allocare alla scansione è più importante per i siti più grandi o per quelli che generano automaticamente pagine in base ai parametri URL, ad esempio.

Crawl rate limit

Googlebot è progettato per essere un buon cittadino del web. Crawling è la sua priorità principale, mentre fare in modo che non degrada l’esperienza degli utenti che visitano il sito. Chiamiamo questo il “limite di velocità di scansione”, che limita il tasso massimo di recupero per un determinato sito.

In poche parole, questo rappresenta il numero di connessioni parallele simultanee che Googlebot può utilizzare per eseguire la scansione del sito, così come il tempo che deve attendere tra i recuperi. Il tasso di scansione può andare su e giù in base a un paio di fattori:

  • Crawl salute: Se il sito risponde molto rapidamente per un po’, il limite sale, il che significa più connessioni possono essere utilizzate per eseguire la scansione. Se il sito rallenta o risponde con errori del server, il limite scende e Googlebot esegue la scansione meno.
  • Limite impostato in Search Console: i proprietari di siti web possono ridurre la scansione del sito da parte di Googlebot. Si noti che l’impostazione di limiti più elevati non aumenta automaticamente la scansione.

Richiesta di scansione

Anche se il limite di velocità di scansione non viene raggiunto, se non c’è richiesta dall’indicizzazione, ci sarà una bassa attività da Googlebot. I due fattori che svolgono un ruolo significativo nel determinare la domanda di scansione sono:

  • Popolarità: Gli URL che sono più popolari su Internet tendono ad essere scansionati più spesso per mantenerli più freschi nel nostro indice.
  • Staleness: i nostri sistemi tentano di impedire che gli URL diventino obsoleti nell’indice.

Inoltre, eventi a livello di sito come le mosse del sito possono innescare un aumento della domanda di scansione al fine di reindicizzare il contenuto sotto i nuovi URL.

Prendendo crawl rate e crawl demand insieme definiamo crawl budget come il numero di URL che Googlebot può e vuole eseguire la scansione.

Fattori che influenzano il budget di scansione

Secondo la nostra analisi, avere molti URL a basso valore aggiunto può influenzare negativamente la scansione e l’indicizzazione di un sito. Abbiamo scoperto che gli URL a basso valore aggiunto rientrano in queste categorie, in ordine di importanza:

  • Navigazione sfaccettata e identificatori di sessione
  • On-site duplicate content
  • Soft error pages
  • Hacked pages
  • Infinite spaces and proxy
  • Low quality and spam content

Wasting server le risorse su pagine come queste scaricheranno l’attività di scansione da pagine che hanno effettivamente valore, il che potrebbe causare un ritardo significativo nella scoperta di grandi contenuti su un sito.

Domande principali

La scansione è il punto di ingresso per i siti nei risultati di ricerca di Google. La scansione efficiente di un sito Web aiuta con la sua indicizzazione nella ricerca di Google.

La velocità del sito influisce sul mio budget di scansione? Che ne dici di errori?

Rendere un sito più veloce migliora l’esperienza degli utenti, aumentando anche il tasso di scansione. Per Googlebot, un sito veloce è un segno di server sani, in modo che possa ottenere più contenuti sullo stesso numero di connessioni. Il rovescio della medaglia, un numero significativo di errori 5xx o timeout di connessione segnalano il contrario e la scansione rallenta.

Si consiglia di prestare attenzione al rapporto Errori di scansione in Search Console e mantenere basso il numero di errori del server.

La scansione è un fattore di classifica?

Un aumento del tasso di scansione non porterà necessariamente a posizioni migliori nei risultati di ricerca. Google utilizza centinaia di segnali per classificare i risultati e, mentre la scansione è necessaria per essere nei risultati, non è un segnale di classifica.

Gli URL alternativi e i contenuti incorporati contano nel budget di scansione?

Generalmente, qualsiasi URL che Googlebot esegue la scansione conterà per il budget di scansione di un sito. Gli URL alternativi, come AMP o hreflang, così come i contenuti incorporati, come CSS e JavaScript, incluse le chiamate AJAX (come XHR), potrebbero dover essere scansionati e consumeranno il budget di scansione di un sito. Allo stesso modo, le lunghe catene di reindirizzamento possono avere un effetto negativo sulla scansione.

Posso controllare Googlebot con la direttiva “crawl-delay”?

I robot “crawl-delay” non standard.la direttiva txt non viene elaborata da Googlebot.

La direttiva nofollow influisce sul budget di scansione?

Dipende. Qualsiasi URL che viene sottoposto a scansione influisce sul budget di scansione, quindi anche se la tua pagina contrassegna un URL come nofollow, può comunque essere sottoposto a scansione se un’altra pagina del tuo sito o qualsiasi pagina sul Web non etichetta il link come nofollow.

Fare URL ho negato attraverso i robot.txt influisce sul mio budget di scansione in qualche modo?

No, gli URL non consentiti non influiscono sul budget di scansione.

Per informazioni su come ottimizzare la scansione del tuo sito, dai un’occhiata al nostro blogpost sull’ottimizzazione della scansione dal 2009 che è ancora applicabile. Se hai domande, chiedi nei forum!

Inviato da Gary, Crawling e indicizzazione squadre

Leave a Reply