Articles / 6月 18, 2021

Webクローラーとは何ですか、どのように動作しますか？

ヴァンヴィセンテ

@ヴァンヴィセンテ

2021年7月9日午前9時30分EDT

Googleの何かを捜し、疑問に思ったことがある、”いかにそれはどこに見るために知っているか。”答えは”網のクローラー、”である網を捜し、事をオンラインで容易に見つけることができるように指示する。説明します

検索エンジンとクローラー

GoogleやBingなどの検索エンジンでキーワードを使用して検索すると、サイトは何兆ものページをふるいにかけ、その用語に関すこれらの調査エンジンにファイルのこれらのページのすべてがいかに丁度あり、それらを捜す方法を知り秒の内のこれらの結果を発生させるか。

答えはウェブクローラーで、スパイダーとも呼ばれます。これらは、検索エンジンに追加できるように、web上で”クロール”または閲覧する自動化されたプログラム（しばしば”ロボット”または”ボット”と呼ばれます）です。これらのロボットは、最終的に検索結果に表示されるページのリストを作成するためにウェブサイトを索引付けします。

クローラは、これらのページのコピーを作成してエンジンのデータベースに保存するので、ほぼ瞬時に検索を行うことができます。また、検索エンジンは、多くの場合、そのデータベース内のサイトのキャッシュされたバージョンが含まれている理由です。

関連：Webページがダウンしたときにアクセスする方法

サイトマップと選択

だから、どのようにクローラーは、クロールするwebサイトを選ぶのですか？まあ、最も一般的なシナリオは、ウェブサイトの所有者は、検索エンジンが自分のサイトをクロールしたいということです。彼らは、Google、Bing、Yahoo、または他の検索エンジンにページのインデックスを要求することでこれを達成できます。このプロセスは、エンジンからエンジンに変化します。また、検索エンジンは、URLが他の公開サイトにリンクされている回数を追跡することによって、人気のあるリンクされたwebサイトを頻繁に選択してク

ウェブサイトの所有者は、
サイトマップのアップロードなど、検索エンジンがウェブサイトを索引付けするのに役立つ特定のプロセスを使用できます。これは、あなたのウェブサイトの一部であるすべてのリンクとページを含むファイルです。通常、インデックスを作成したいページを示すために使用されます。

検索エンジンがウェブサイトを一度クロールすると、自動的にそのサイトを再びクロールします。頻度は、他の指標の中でも、ウェブサイトの人気に基づいて異なります。そのため、サイトの所有者は頻繁に更新されたサイトマップを保持して、インデックスを作成する新しいwebサイトをエンジンに知らせます。

ロボットと礼儀正しさの要因

ウェブサイトが検索エンジンにそのページの一部またはすべてを表示したくない場合はどうなりますか？たとえば、ユーザーがメンバー専用ページを検索したり、404エラーページを表示したりしないようにすることができます。これは、クロール除外リスト、ロボットとしても知られています。txtは、遊びに来ています。これは、インデックス作成から除外するwebページをクローラーに指示する単純なテキストファイルです。

txtは、webクローラがサイトのパフォーマンスに大きな影響を与える可能性があることが重要です。クローラーは、本質的にあなたのウェブサイト上のすべてのページをダウンロードしているので、彼らはリソースを消費し、減速を引き起こす可能性があります。彼らは予測不可能な時間に、承認なしに到着します。ページを繰り返し索引付けする必要がない場合は、クローラーを停止すると、webサイトの負荷の一部が軽減される可能性があります。幸いなことに、ほとんどのクローラーは、サイト所有者のルールに基づいて特定のページのクロールを停止します。

どこでも最高の技術ニュースレター

425,000加入者に参加し、機能、記事、ニュース、トリビアの毎日のダイジェストを取得します。

電子メールを送信することにより、利用規約とプライバシーポリシーに同意したものとみなされます。

メタデータマジック

Googleのすべての検索結果のURLとタイトルの下に、ページの簡単な説明があります。これらの記述はスニペットと呼ばれます。 Googleのページのスニペットが、ウェブサイトの実際のコンテンツと必ずしも一致しないことに気付くかもしれません。これは多くのウェブサイトに場所の所有者が彼らのページに加える注文の記述である”メタ札”と呼ばれる何かがあるのである。

サイトの所有者は、ウェブサイトをクリックしたくなるように書かれた魅力的なメタデータの説明を思い付くことがよくあります。 Googleはまた、価格や在庫状況などの他のメタ情報を一覧表示します。これは、電子商取引のウェブサイトを実行している人のために特に便利です。

あなたの検索

ウェブ検索は、インターネットを使用する上で不可欠な部分です。ウェブを検索することは、新しいウェブサイト、店舗、コミュニティ、および興味を発見するのに最適な方法です。毎日、網のクローラーは何百万のページを訪問し、調査エンジンに加える。クローラーに場所資源をとることのようなある欠点が、ある間、場所の所有者および訪問者両方にとって非常に貴重である。

関連：Google検索履歴の最後の15分を削除する方法

Vann Vicente
Vann Vicenteは、平均的な消費者向けの説明者に焦点を当てて、4年間テクノロジーライターを務めています。彼はまた、地域の電子商取引のウェブサイトのためのデジタルマーケティング担当者として働いています。彼はインターネット文化、ソーシャルメディア、そして人々がウェブとどのように相互作用するかに投資しています。全文を読む”

International Blogging Network