Was Crawl Budget für Googlebot bedeutet

Montag, 16. Januar 2017

Vor kurzem haben wir eine Reihe von Definitionen für “Crawl Budget” gehört, aber wir haben keinen einzigen Begriff, der alles beschreiben würde, wofür “Crawl Budget” extern steht. Mit diesem Beitrag klären wir, was wir eigentlich haben und was es für den Googlebot bedeutet.

Zunächst möchten wir betonen, dass das Crawling-Budget, wie unten beschrieben, nicht etwas ist, worüber sich die meisten Publisher Sorgen machen müssen. Wenn neue Seiten in der Regel am selben Tag gecrawlt werden, an dem sie veröffentlicht werden, müssen sich Webmaster nicht auf das Crawl-Budget konzentrieren. Wenn eine Site weniger als ein paar tausend URLs hat, wird sie die meiste Zeit effizient gecrawlt.

Die Priorisierung dessen, was gecrawlt werden soll, wann und wie viel Ressourcen der Server, auf dem die Site gehostet wird, dem Crawlen zuweisen kann, ist wichtiger für größere Websites oder solche, die Seiten automatisch basierend auf URL-Parametern generieren.

Crawl Rate Limit

Googlebot wurde entwickelt, um ein guter Bürger des Webs zu sein. Crawling ist die Hauptpriorität, während sichergestellt wird, dass die Erfahrung der Benutzer, die die Website besuchen, nicht beeinträchtigt wird. Wir nennen dies das “Crawl Rate Limit”, das die maximale Abrufrate für eine bestimmte Site begrenzt.

Einfach ausgedrückt stellt dies die Anzahl der gleichzeitigen parallelen Verbindungen dar, die der Googlebot zum Crawlen der Site verwenden kann, sowie die Zeit, die zwischen den Abrufen gewartet werden muss. Die Crawling-Rate kann basierend auf einigen Faktoren auf und ab gehen:

  • Crawling-Zustand: Wenn die Site für eine Weile sehr schnell reagiert, steigt das Limit, was bedeutet, dass mehr Verbindungen zum Crawlen verwendet werden können. Wenn die Site langsamer wird oder mit Serverfehlern reagiert, sinkt das Limit und der Googlebot crawlt weniger.
  • In der Search Console festgelegtes Limit: Websitebesitzer können das Crawlen ihrer Website durch den Googlebot reduzieren. Beachten Sie, dass das Festlegen höherer Grenzwerte das Crawling nicht automatisch erhöht.

Crawling-Nachfrage

Selbst wenn das Crawling-Ratenlimit nicht erreicht wird, wenn keine Nachfrage aus der Indizierung besteht, wird es eine geringe Aktivität von Googlebot geben. Die beiden Faktoren, die eine wichtige Rolle bei der Bestimmung der Crawl-Nachfrage spielen, sind:

  • Popularität: URLs, die im Internet beliebter sind, werden in der Regel häufiger gecrawlt, um sie in unserem Index frischer zu halten.
  • Veraltet: Unsere Systeme versuchen zu verhindern, dass URLs im Index veraltet sind.

Darüber hinaus können site-weite Ereignisse wie Site-Verschiebungen einen Anstieg der Crawling-Nachfrage auslösen, um den Inhalt unter den neuen URLs neu zu indizieren.

Wenn wir die Crawling-Rate und die Crawling-Nachfrage zusammen nehmen, definieren wir das Crawling-Budget als die Anzahl der URLs, die der Googlebot crawlen kann und möchte.

Faktoren, die das Crawling-Budget beeinflussen

Laut unserer Analyse können viele URLs mit geringem Mehrwert das Crawling und die Indizierung einer Website negativ beeinflussen. Wir haben festgestellt, dass die URLs mit geringem Mehrwert in der Reihenfolge ihrer Bedeutung in diese Kategorien fallen:

  • Facettierte Navigations- und Sitzungskennungen
  • Vor-Ort-Duplikat-Inhalt
  • Weiche Fehlerseiten
  • Gehackte Seiten
  • Unendliche Leerzeichen und Proxies
  • Niedrige Qualität und Spam-Inhalt

Verschwendung von Serverressourcen auf Seiten wie diesen wird die Crawling-Aktivität von Seiten abgeleitet, die tatsächlich einen Wert haben, was zu einer erheblichen Verzögerung bei der Entdeckung großartiger Inhalte auf einer Website führen kann.

Die wichtigsten Fragen

Crawling ist der Einstiegspunkt für Websites in die Google-Suchergebnisse. Effizientes Crawlen einer Website hilft bei der Indizierung in der Google-Suche.

Beeinflusst die Website-Geschwindigkeit mein Crawl-Budget? Wie wäre es mit Fehlern?

Eine Website schneller zu machen, verbessert die Benutzererfahrung und erhöht gleichzeitig die Crawling-Rate. Für Googlebot ist eine schnelle Website ein Zeichen für gesunde Server, sodass mehr Inhalte über die gleiche Anzahl von Verbindungen abgerufen werden können. Auf der anderen Seite signalisieren eine signifikante Anzahl von 5xx-Fehlern oder Verbindungs-Timeouts das Gegenteil, und das Crawlen verlangsamt sich.

Wir empfehlen, den Crawling-Fehlerbericht in der Search Console zu beachten und die Anzahl der Serverfehler gering zu halten.

Ist Crawling ein Ranking-Faktor?

Eine erhöhte Crawl-Rate führt nicht unbedingt zu besseren Positionen in den Suchergebnissen. Google verwendet Hunderte von Signalen, um die Ergebnisse zu ranken, und während das Crawlen notwendig ist, um in den Ergebnissen zu sein, ist es kein Ranking-Signal.

Zählen alternative URLs und eingebettete Inhalte im Crawl Budget?

Im Allgemeinen wird jede URL, die der Googlebot crawlt, auf das Crawling-Budget einer Website angerechnet. Alternative URLs wie AMP oder hreflang sowie eingebettete Inhalte wie CSS und JavaScript, einschließlich AJAX-Aufrufen (wie XHR), müssen möglicherweise gecrawlt werden und verbrauchen das Crawl-Budget einer Website. Ebenso können sich lange Redirect-Ketten negativ auf das Crawlen auswirken.

Kann ich den Googlebot mit der Direktive “Crawl-delay” steuern?

Die nicht standardmäßigen “Crawl-Delay” -Roboter.die txt-Direktive wird vom Googlebot nicht verarbeitet.

Hat die Nofollow-Richtlinie Auswirkungen auf das Crawl-Budget?

Es kommt darauf an. Selbst wenn Ihre Seite eine URL als Nofollow markiert, kann sie dennoch gecrawlt werden, wenn eine andere Seite Ihrer Website oder eine andere Seite im Web den Link nicht als Nofollow kennzeichnet.

Tun Sie URLs, die ich durch Roboter nicht zugelassen habe.beeinflusst txt mein Crawl Budget in irgendeiner Weise?

Nein, unzulässige URLs haben keinen Einfluss auf das Crawl-Budget.

Weitere Informationen zur Optimierung des Crawlings Ihrer Website finden Sie in unserem Blogpost zur Optimierung des Crawlings von 2009, der noch anwendbar ist. Wenn Sie Fragen haben, fragen Sie in den Foren!

Gepostet von Gary, Crawling- und Indexierungsteams

Leave a Reply