Was ist ein Webcrawler/Spider und wie funktioniert er?

Google-feature-1680x840 Google-feature-1680x840 Google-feature-1680x840 Google-feature-1680x840
– keine Namensnennung erforderlich

Suchmaschinen wie Google sind Teil dessen, was das Internet so mächtig macht. Mit ein paar Tastenanschlägen und einem Klick auf eine Schaltfläche werden die relevantesten Antworten auf Ihre Frage angezeigt. Aber haben Sie sich jemals gefragt, wie Suchmaschinen funktionieren? Webcrawler sind Teil der Antwort.

Also, was ist ein Webcrawler und wie funktioniert er?

Was ist ein Webcrawler?

funnel-web-spider-4865535_1920
– keine Zuordnung erforderlich

Wenn Sie in einer Suchmaschine nach etwas suchen, muss die Suchmaschine schnell Millionen (oder Milliarden) von Webseiten scannen, um die relevantesten Ergebnisse anzuzeigen. Webcrawler (auch als Spider oder Suchmaschinen-Bots bezeichnet) sind automatisierte Programme, die das Internet “crawlen” und Informationen über Webseiten auf leicht zugängliche Weise zusammenstellen.

Das Wort “Crawling” bezieht sich auf die Art und Weise, wie Webcrawler das Internet durchqueren. Webcrawler werden auch als “Spinnen” bezeichnet.” Dieser Name kommt von der Art, wie sie das Netz kriechen — wie Spinnen auf ihren Spinnweben kriechen.

Webcrawler bewerten und kompilieren Daten auf so vielen Webseiten wie möglich. Sie tun dies, damit die Daten leicht zugänglich und durchsuchbar sind, weshalb sie für Suchmaschinen so wichtig sind.

Stellen Sie sich einen Webcrawler als den Editor vor, der den Index am Ende des Buches kompiliert. Die Aufgabe des Index besteht darin, den Leser darüber zu informieren, wo im Buch jedes Schlüsselthema oder jede Schlüsselphrase erscheint. Ebenso erstellt ein Webcrawler einen Index, den eine Suchmaschine verwendet, um relevante Informationen zu einer Suchanfrage schnell zu finden.

Was ist Suchindizierung?

Wie bereits erwähnt, ist die Suchindizierung vergleichbar mit dem Kompilieren des Index auf der Rückseite eines Buches. In gewisser Weise ist die Suchindizierung wie das Erstellen einer vereinfachten Karte des Internets. Wenn jemand einer Suchmaschine eine Frage stellt, führt die Suchmaschine sie durch ihren Index, und die relevantesten Seiten erscheinen zuerst.

Aber woher weiß die Suchmaschine, welche Seiten relevant sind?

Die Suchindizierung konzentriert sich in erster Linie auf zwei Dinge: den Text auf der Seite und die Metadaten der Seite. Der Text ist alles, was Sie als Leser sehen, während die Metadaten Informationen über die vom Ersteller der Seite eingegebene Seite sind, die als “Meta-Tags” bezeichnet werden.” Zu den Meta-Tags gehören Dinge wie die Seitenbeschreibung und der Meta-Titel, die in den Suchergebnissen angezeigt werden.

Suchmaschinen wie Google indizieren den gesamten Text auf einer Webseite (mit Ausnahme bestimmter Wörter wie “the” und “a” in einigen Fällen). Wenn dann ein Begriff in der Suchmaschine gesucht wird, durchsucht er schnell seinen Index nach der relevantesten Seite.

Wie funktioniert ein Webcrawler?

google-485611_1920
– keine Namensnennung erforderlich

Ein Webcrawler funktioniert wie der Name schon sagt. Sie beginnen bei einer bekannten Webseite oder URL und indizieren jede Seite unter dieser URL (meistens fordern Website-Besitzer Suchmaschinen auf, bestimmte URLs zu crawlen). Wenn sie auf diesen Seiten auf Hyperlinks stoßen, erstellen sie eine “To-Do” -Liste von Seiten, die sie als nächstes crawlen. Der Webcrawler setzt dies auf unbestimmte Zeit fort und befolgt dabei bestimmte Regeln, welche Seiten gecrawlt und welche ignoriert werden sollen.

Webcrawler crawlen nicht jede Seite im Internet. Tatsächlich wird geschätzt, dass nur 40-70% des Internets suchindiziert wurden (was immer noch Milliarden von Seiten entspricht). Viele Webcrawler sind so konzipiert, dass sie sich auf Seiten konzentrieren, die als “maßgeblicher” gelten.” Autoritative Seiten erfüllen eine Handvoll Kriterien, die es wahrscheinlicher machen, dass sie qualitativ hochwertige oder beliebte Informationen enthalten. Webcrawler müssen auch Seiten immer wieder besuchen, wenn sie aktualisiert, entfernt oder verschoben werden.

Ein letzter Faktor, der steuert, welche Seiten ein Webcrawler crawlen wird, sind die Roboter.txt-Protokoll oder robots exclusion protocol. Der Server einer Webseite hostet einen Roboter.txt-Datei, die die Regeln für jeden Webcrawler oder andere Programme enthält, die auf die Seite zugreifen. Die Datei schließt aus, dass bestimmte Seiten gecrawlt werden und welchen Links der Crawler folgen kann. Ein Ziel der Roboter.die TXT-Datei soll die Belastung begrenzen, die Bots auf den Server der Website ausüben.

Um zu verhindern, dass ein Webcrawler auf bestimmte Seiten Ihrer Website zugreift, können Sie über die Robots das Tag “disallow” hinzufügen.txt-Datei oder fügen Sie der betreffenden Seite das Noindex-Meta-Tag hinzu.

Was ist der Unterschied zwischen Crawling und Scraping?

Web Scraping ist die Verwendung von Bots zum Herunterladen von Daten von einer Website ohne die Erlaubnis dieser Website. Häufig wird Web Scraping aus böswilligen Gründen verwendet. Beim Web-Scraping wird häufig der gesamte HTML-Code von bestimmten Websites übernommen, und fortgeschrittenere Scraper übernehmen auch die CSS- und JavaScript-Elemente. Web-Scraping-Tools können verwendet werden, um schnell und einfach Informationen zu bestimmten Themen zusammenzustellen (z. B. eine Produktliste), können aber auch in graue und illegale Gebiete wandern.

Webcrawling hingegen ist die Indizierung von Informationen auf Websites mit Berechtigung, damit diese problemlos in Suchmaschinen angezeigt werden können.

Beispiele für Webcrawler

Jede große Suchmaschine verfügt über einen oder mehrere Webcrawler. Zum Beispiel:

  • Google hat Googlebot
  • Bing hat Bingbot
  • DuckDuckGo hat DuckDuckBot.

Größere Suchmaschinen wie Google haben spezifische Bots für verschiedene Schwerpunkte, einschließlich Googlebot-Bilder, Googlebot-Videos und AdsBot.

Wie wirkt sich Webcrawling auf SEO aus?

seo-758264_1920
– keine Namensnennung erforderlich

Wenn Ihre Seite in den Suchmaschinenergebnissen angezeigt werden soll, muss die Seite für Webcrawler zugänglich sein. Abhängig von Ihrem Website-Server möchten Sie möglicherweise eine bestimmte Häufigkeit des Crawlens zuweisen, welche Seiten der Crawler scannen soll und wie viel Druck er auf Ihren Server ausüben kann.

Grundsätzlich möchten Sie, dass die Webcrawler Seiten mit Inhalten bearbeiten, nicht jedoch Seiten wie Dankesnachrichten, Administrationsseiten und interne Suchergebnisse.

Informationen an Ihren Fingerspitzen

Die Verwendung von Suchmaschinen ist für die meisten von uns zur zweiten Natur geworden, doch die meisten von uns haben keine Ahnung, wie sie funktionieren. Webcrawler sind einer der Hauptbestandteile einer effektiven Suchmaschine und indizieren täglich effektiv Informationen über Millionen wichtiger Websites. Sie sind ein unschätzbares Werkzeug für Website-Besitzer, Besucher und Suchmaschinen gleichermaßen.

Jake Harfield (40 Artikel veröffentlicht)

Jake Harfield ist ein freiberuflicher Schriftsteller mit Sitz in Perth, Australien. Wenn er nicht schreibt, ist er normalerweise im Busch und fotografiert die lokale Tierwelt. Sie können ihn besuchen unter www.jakeharfield.com

Mehr von Jake Harfield

Leave a Reply