Was ist ein Webcrawler und wie funktioniert er?
@vannvicente
Haben Sie jemals bei Google nach etwas gesucht und sich gefragt: “Woher weiß es, wo es suchen muss? Die Antwort sind “Webcrawler”, die das Web durchsuchen und indizieren, damit Sie Dinge einfach online finden können. Wir erklären es Ihnen.
Suchmaschinen und Crawler
Wenn Sie mit einem Schlüsselwort in einer Suchmaschine wie Google oder Bing suchen, durchsucht die Website Billionen von Seiten, um eine Liste mit Ergebnissen zu diesem Begriff zu erstellen. Wie genau haben diese Suchmaschinen all diese Seiten gespeichert, wissen, wie sie danach suchen müssen, und generieren diese Ergebnisse innerhalb von Sekunden?
Die Antwort sind Webcrawler, auch Spinnen genannt. Hierbei handelt es sich um automatisierte Programme (oft als “Roboter” oder “Bots” bezeichnet), die das Web “crawlen” oder durchsuchen, damit sie Suchmaschinen hinzugefügt werden können. Diese Roboter indizieren Websites, um eine Liste von Seiten zu erstellen, die schließlich in Ihren Suchergebnissen angezeigt werden.
Crawler erstellen und speichern auch Kopien dieser Seiten in der Datenbank der Engine, sodass Sie fast sofort suchen können. Dies ist auch der Grund, warum Suchmaschinen häufig zwischengespeicherte Versionen von Websites in ihre Datenbanken aufnehmen.
RELATED: Zugriff auf eine Webseite, wenn sie ausgefallen ist
Sitemap und Auswahl
Wie wählen Crawler also aus, welche Websites gecrawlt werden sollen? Nun, das häufigste Szenario ist, dass Websitebesitzer möchten, dass Suchmaschinen ihre Websites crawlen. Sie können dies erreichen, indem sie Google, Bing, Yahoo oder eine andere Suchmaschine auffordern, ihre Seiten zu indizieren. Dieser Vorgang variiert von Motor zu Motor. Außerdem wählen Suchmaschinen häufig beliebte, gut verlinkte Websites zum Crawlen aus, indem sie verfolgen, wie oft eine URL auf anderen öffentlichen Websites verlinkt ist.
Websitebesitzer können bestimmte Prozesse verwenden, um Suchmaschinen bei der Indizierung ihrer Websites zu unterstützen, z. B.
Hochladen einer Sitemap. Dies ist eine Datei, die alle Links und Seiten enthält, die Teil Ihrer Website sind. Es wird normalerweise verwendet, um anzugeben, welche Seiten indiziert werden sollen.
Sobald Suchmaschinen eine Website bereits einmal gecrawlt haben, wird diese Website automatisch erneut gecrawlt. Die Häufigkeit hängt unter anderem davon ab, wie beliebt eine Website ist. Daher halten Websitebesitzer häufig aktualisierte Sitemaps bereit, damit Suchmaschinen wissen, welche neuen Websites indiziert werden sollen.
Roboter und der Höflichkeitsfaktor
Was ist, wenn eine Website nicht möchte, dass einige oder alle ihrer Seiten in einer Suchmaschine angezeigt werden? Beispielsweise möchten Sie möglicherweise nicht, dass Personen nach einer Seite nur für Mitglieder suchen oder Ihre 404-Fehlerseite anzeigen. Dies ist, wo die Crawl-Ausschlussliste, auch als Roboter bekannt.txt ins Spiel kommt. Dies ist eine einfache Textdatei, die Crawlern vorschreibt, welche Webseiten von der Indizierung ausgeschlossen werden sollen.
Ein weiterer Grund, warum Roboter.txt ist wichtig, dass Webcrawler einen erheblichen Einfluss auf die Leistung der Website haben können. Da Crawler im Wesentlichen alle Seiten Ihrer Website herunterladen, verbrauchen sie Ressourcen und können zu Verlangsamungen führen. Sie kommen zu unvorhersehbaren Zeiten und ohne Genehmigung an. Wenn Ihre Seiten nicht wiederholt indiziert werden müssen, kann das Stoppen von Crawlern dazu beitragen, die Belastung Ihrer Website zu verringern. Glücklicherweise hören die meisten Crawler auf, bestimmte Seiten basierend auf den Regeln des Websitebesitzers zu crawlen.
Der beste Tech-Newsletter aller Zeiten
Schließen Sie sich 425.000 Abonnenten an und erhalten Sie eine tägliche Übersicht über Funktionen, Artikel, Nachrichten und Wissenswertes.
Mit dem Absenden Ihrer E-Mail stimmen Sie den Nutzungsbedingungen und Datenschutzbestimmungen zu.
Metadata Magic
Unter der URL und dem Titel jedes Suchergebnisses in Google finden Sie eine kurze Beschreibung der Seite. Diese Beschreibungen werden Snippets genannt. Möglicherweise stellen Sie fest, dass das Snippet einer Seite in Google nicht immer mit dem tatsächlichen Inhalt der Website übereinstimmt. Dies liegt daran, dass viele Websites sogenannte “Meta-Tags” haben, bei denen es sich um benutzerdefinierte Beschreibungen handelt, die Websitebesitzer ihren Seiten hinzufügen.
Websitebesitzer erstellen häufig verlockende Metadatenbeschreibungen, die Sie dazu bringen sollen, auf eine Website zu klicken. Google listet auch andere Metainformationen wie Preise und Lagerverfügbarkeit auf. Dies ist besonders nützlich für diejenigen, die E-Commerce-Websites betreiben.
Ihre Suche
Die Websuche ist ein wesentlicher Bestandteil der Nutzung des Internets. Das Durchsuchen des Internets ist eine großartige Möglichkeit, neue Websites, Geschäfte, Communities und Interessen zu entdecken. Jeden Tag besuchen Webcrawler Millionen von Seiten und fügen sie Suchmaschinen hinzu. Crawler haben zwar einige Nachteile, z. B. das Beanspruchen von Site-Ressourcen, sind jedoch sowohl für Websitebesitzer als auch für Besucher von unschätzbarem Wert.
RELATED: So löschen Sie die letzten 15 Minuten des Google-Suchverlaufs
Vann Vicente ist seit vier Jahren Technologieautor und konzentriert sich auf Erklärer, die sich an Durchschnittsverbraucher richten. Er arbeitet auch als digitaler Vermarkter für eine regionale E-Commerce-Website. Er hat in die Internetkultur investiert, Social Media, und wie Menschen mit dem Web interagieren.Lesen Sie die vollständige Biografie ”
Leave a Reply