Googlebotのクロール予算とは何か

Monday,January16,2017

最近、”クロール予算”の定義をいくつか聞いたことがありますが、”クロール予算”が外部的に表すすべてを記述する単一の用語はありません。 この記事では、実際に何を持っているのか、それがGooglebotにとって何を意味するのかを明確にします。

まず、以下で説明するように、クロール予算はほとんどの出版社が心配しなければならないものではないことを強調したいと思います。 新しいページが公開された日にクロールされる傾向がある場合、クロール予算はウェブマスターが集中する必要があるものではありません。 同様に、サイトのUrlが数千個未満の場合、ほとんどの場合、効率的にクロールされます。

サイトをホストしているサーバーがクロールに割り当てることができるクロール対象、いつ、どのくらいのリソースを優先することは、大規模なサイトや、URLパラ

クロール速度制限

Googlebotはウェブの善良な市民になるように設計されています。 クロールは、サイトを訪問するユーザーの経験を低下させないようにする一方で、その主な優先事項です。 これを”クロールレート制限”と呼び、特定のサイトの最大フェッチレートを制限します。

簡単に言えば、これはGooglebotがサイトをクロールするために使用できる同時並列接続の数と、フェッチの間に待たなければならない時間を表します。 クロール率は、いくつかの要因に基づいて上下に行くことができます:

  • クロールの正常性:サイトがしばらくの間本当に迅速に応答すると、制限が上がり、より多くの接続をクロールに使用できることを意味します。 サイトの速度が低下したり、サーバーエラーで応答したりすると、制限が下がり、Googlebotのクロールが少なくなります。
  • Search Consoleで設定された制限:ウェブサイトの所有者は、Googlebotによるサイトのクロールを減らすことができます。 上限を設定しても、クロールが自動的に増加するわけではありません。

クロール要求

クロール速度の制限に達していなくても、インデックス作成からの要求がなければ、Googlebotからのアクティビティは低くなります。 クロールの需要を決定する上で重要な役割を果たす2つの要因は次のとおりです。:

  • 人気: インターネット上でより一般的なurlは、インデックスでより新鮮に保つために、より頻繁にクロールされる傾向があります。
  • Staleness:私たちのシステムは、Urlがインデックス内で古くなるのを防止しようとします。

さらに、サイト移動などのサイト全体のイベントは、新しいUrlの下でコンテンツを再インデックス化するためにクロール需要の増加を引き起こす可能性

クロール率とクロール需要を合わせて、クロール予算をGooglebotがクロールできるUrlとクロールしたいUrlの数として定義します。

クロール予算に影響を与える要因

我々の分析によると、低付加価値Urlが多いと、サイトのクロールとインデックス作成に悪影響を与える可能性があ 付加価値の低いUrlは、重要度の高い順に次のカテゴリに分類されることがわかりました:

  • ファセットナビゲーションとセッション識別子
  • オンサイトの重複コンテンツ
  • ソフトエラーページ
  • ハッキングされたページ
  • 無限のスペースとプロキシ
  • 低品質とスパムコンテンツ

このようなページは、実際に価値があるページからクロール活動を排出し、サイト上の優れたコンテンツを発見するのに大幅な遅延を引き起こす可能性

Top questions

クロールは、Googleの検索結果へのサイトのエントリポイントです。 ウェブサイトの効率的なクロールは、Google検索でのインデックス作成に役立ちます。

サイトの速度はクロールの予算に影響しますか? エラーはどうですか?

サイトを高速化すると、ユーザーの体験が向上し、クロール率も向上します。 Googlebotの場合、迅速なサイトは正常なサーバーの兆候であるため、同じ数の接続でより多くのコンテンツを取得できます。 逆に、かなりの数の5xxエラーまたは接続タイムアウトが反対を示し、クロールが遅くなります。

Search Consoleのクロールエラーレポートに注意し、サーバーエラーの数を少なくすることをお勧めします。

クロールはランキング要因ですか?

クロール率が上昇しても、必ずしも検索結果の位置が向上するとは限りません。 Googleは結果をランク付けするために何百もの信号を使用し、クロールは結果に含まれるために必要ですが、ランキング信号ではありません。

代替Urlと埋め込みコンテンツはクロール予算に含まれていますか?

一般的に、GooglebotがクロールするURLは、サイトのクロール予算にカウントされます。 AMPやhreflangのような代替Urlや、AJAX(XHRなど)呼び出しを含むCSSやJavaScriptなどの埋め込みコンテンツは、クロールする必要があり、サイトのクロール予算を消費します。 同様に、長いリダイレクトチェーンはクロールに悪影響を及ぼす可能性があります。

“crawl-delay”ディレクティブでGooglebotを制御できますか?

非標準の”クロール遅延”ロボット。txtディレクティブはGooglebotによって処理されません。

nofollowディレクティブはクロール予算に影響しますか?

それは依存します。 クロールされるURLはクロールの予算に影響するため、ページにURLがnofollowとしてマークされていても、サイト上の別のページまたはweb上の任意のページでリンクにnofollowとラベリングされていない場合は、クロールを実行できます。

私はロボットを介して許可されていないUrlを行います。txtは、どのような方法で私のクロールの予算に影響を与えますか?

いいえ、許可されていないUrlはクロールの予算には影響しません。

サイトのクロールを最適化する方法については、まだ適用可能な2009年からのクロールの最適化に関するブログ記事をご覧ください。 質問がある場合は、フォーラムで質問してください!

投稿者ゲイリー、クロールとインデックスチーム

Leave a Reply