Articles / Juli 31, 2021

So verhindern Sie, dass Suchmaschinen eine Seite indizieren

Ich habe kürzlich einem Kunden geholfen, ein altes YouTube-Video von seinem Kanal zu löschen. Sie hatten nicht beabsichtigt, es öffentlich zugänglich zu machen, und wussten nicht, dass es so war, bis sie Google selbst suchten.

Dadurch wird die Seite zwar nicht sofort von Google deindexiert, aber ich habe mir Gedanken darüber gemacht, warum jemand Suchmaschinen daran hindern möchte, eine Seite zu indizieren, bevor ein Schaden angerichtet wird.

3 Gründe, Google daran zu hindern, eine Seite zu indizieren

Obwohl es nur sehr wenige dringende Gründe gibt, warum Sie erfahren möchten, wie Sie verhindern können, dass Google eine Seite indiziert, finden Sie hier einige der Marketinggründe dafür.

Verbessern Sie Ihre Verfolgung und Zielzuordnung

Für viele Webmaster und Vermarkter werden Ziele für Formularabschlüsse durch Besuche auf einer Dankeseite verfolgt. Um zu verhindern, dass Ihre Dankeseite versehentlich organischen Traffic erhält, sollten Sie erfahren, wie Sie verhindern können, dass Google die Seite vollständig indiziert.

Wenn zusätzlich zu den Benutzern, die Ihre Formulare ausgefüllt haben, organischer Traffic auf Ihrer Seite landet, sind Ihre Ziele und die Ziel-Conversion-Rate nicht korrekt.

Reduzieren Sie Seiten ohne Benutzerwert

Obwohl es sich um ein übermäßig vereinfachtes Modell handelt, können Sie sich fast vorstellen, dass Ihre Website über einen Pool von SEO-Werten verfügt.

Bei einer Website mit 10 Seiten erhält jede Seite ungefähr 1/10 des SEO-Werts. Wenn der Websitebesitzer gelernt hat, Keyword-Recherchen durchzuführen und alle Seiten zu optimieren, werden alle diese Seiten effizient und effektiv organischen Traffic generieren.

Stellen Sie sich umgekehrt eine Site mit 100 Seiten vor. Es gibt vier Seiten, die tatsächlich über die Dienstleistungen eines Unternehmens sprechen, und die anderen 96 Seiten sind “Blog-Posts”, die wirklich nur der Eigentümer sind, der Informationen auf seine Website wirft. Diese Seiten adressieren keine bekannten Zielgruppenbedürfnisse und sind nicht für relevante Keyword-Gruppen optimiert.

In unserem vereinfachten Modell ist der Pool an SEO-Werten dünn verteilt. Jede der vier Serviceseiten erhält 1/100 des gesamten SEO-Werts der Website, was sie sehr schwach macht, obwohl sie relativ optimiert sind. Die anderen 96 Seiten erhalten 96/100 des Wertes, aber sie sind Sackgassen, die das Ranking-Potenzial Ihrer Website einfangen und verschwenden.

Zu lernen, wie man Suchmaschinen daran hindert, eine Seite (oder 96) zu indizieren, ist eine großartige Möglichkeit, den SEO-Wert Ihrer Website davon abzuhalten, zu dünn zu werden. Sie können den größten Teil Ihrer Website vor Suchmaschinen verbergen, damit Google nur die nützlichen und relevanten Seiten kennt, die es verdienen, gefunden zu werden.

Probleme mit doppelten Inhalten vermeiden

Das Veröffentlichen einer Seite, die mit einer anderen Seite im Internet identisch oder nahezu identisch ist, kann für Google zu unnötigen Entscheidungen führen.

Welche Seite ist das Original? Selbst wenn eine der Seiten zuerst veröffentlicht wurde, ist die doppelte Seite, die der autoritativeren Quelle folgte? Wenn sich beide Seiten auf Ihrer Website befinden, welche wollten Sie in die Suchergebnisse von Google aufnehmen? Das Ergebnis mag Ihnen vielleicht nicht immer gefallen.

Um Probleme mit doppelten Inhalten zu vermeiden, können Sie versuchen, Bots daran zu hindern, bestimmte Seiten auf Ihrer Website zu crawlen.

So verhindern Sie, dass Google eine Seite indiziert

Die einfachste und gebräuchlichste Methode, um zu verhindern, dass Suchmaschinen eine Seite indizieren, besteht darin, das Meta-Noindex-Tag einzuschließen.

Das Noindex-Tag einschließen

Das Noindex-Meta-Tag wird zwischen den HTML-Tags <head></head> auf einer Webseite verwendet, um zu verhindern, dass Suchmaschinen-Bots diese Seite in ihren Index aufnehmen. Dies ermöglicht es Crawlern weiterhin, Ihre Seiten zu lesen, schlägt jedoch vor, dass sie keine Kopie davon enthalten, um sie in ihren Suchergebnissen anzuzeigen.

Das noindex-Tag, um zu verhindern, dass Suchmaschinen eine Seite indizieren, sieht folgendermaßen aus:

<meta name="robots" content="noindex">

Wenn Sie nur verhindern möchten, dass Google eine Seite indiziert, können Sie den folgenden Code verwenden:

<meta name="googlebot" content="noindex">

Wenn Sie WordPress als CMS verwenden (was ich sehr empfehle), sollten Sie das Yoast SEO-Plugin verwenden (was ich auch sehr empfehle). Mit ein paar Mausklicks können Sie das noindex-Tag zu jeder gewünschten Seite hinzufügen.

Scrollen Sie im Backend einer beliebigen Seite nach unten zu Ihrer Yoast SEO-Box. Klicken Sie dann auf das Zahnradsymbol und ändern Sie das Dropdown-Feld mit der Aufschrift “Suchmaschinen erlauben, diesen Beitrag in den Suchergebnissen anzuzeigen?” zu sagen “Nein.”

so verhindern Sie, dass Google meine Website crawlt Noindex-Meta-Tag

Dies ist keine Anweisung, sodass die Suchmaschine Ihr Meta-Noindex-Tag ignorieren kann. Für eine robustere Technik können Sie Ihre Roboter verwenden.txt-Datei.

Verbieten Sie Bots in Ihren Robotern.txt

Wenn Sie sicher sein möchten, dass Bots wie Googlebot und Bingbot Ihre Seiten überhaupt nicht crawlen können, können Sie Ihren Robotern Anweisungen hinzufügen.txt-Datei.

Roboter.txt ist die Datei im Stammverzeichnis eines Apache-Servers, die verhindern kann, dass bestimmte Bots überhaupt auf Ihre Seiten gelangen. Es ist wichtig zu beachten, dass einige Bots angewiesen werden können, Ihre Roboter zu ignorieren.txt-Datei, so können Sie wirklich nur blockieren, dass “gute” Bots mit dieser Technik.

Verwenden wir eine Seite auf Ihrer Website, https://www.mysite.com/example-page/, als Beispiel. Um zu verhindern, dass alle Bots auf diese Seite zugreifen, verwenden Sie den folgenden Code in Ihren Robotern.txt:

User-agent: *Disallow: /example-page/

Beachten Sie, dass Sie nicht Ihre vollständige URL verwenden müssen, sondern nur den URI, der nach Ihrem Domainnamen steht. Wenn Sie den Googlebot nur daran hindern möchten, die Seite zu crawlen, können Sie den folgenden Code verwenden:

User-agent: GooglebotDisallow: /example-page/

Stoppen Sie Bots daran, Ihre Website mit zu crawlen .htaccess

Ich persönlich kenne keine Clients, die dies jemals benötigen würden, aber Sie können Ihre verwenden.htaccess-Datei, um zu verhindern, dass Benutzeragenten Ihre Website crawlen.

Auf diese Weise können Sie Google vollständig daran hindern, Ihre Website zu crawlen, die selbst von “schlechten” Bots nicht ignoriert werden kann. Der Vorbehalt ist, dass dies eher eine umfassende Lösung ist und weniger auf eine bestimmte Seite abzielt. Verwalten der gezielten Zugriffsverweigerung für mehrere Seiten in Ihrem .htaccess-Datei wäre ein Albtraum.

Der Code zum Blockieren von Googlebot würde nur so aussehen:

RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} Googlebot RewriteRule .* -

Wenn Sie mehrere Bots gleichzeitig blockieren möchten, können Sie Ihren Code folgendermaßen einrichten:

RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} ^.*(Googlebot|Bingbot|Baiduspider).*$ RewriteRule .* -

Es ist manchmal notwendig und nicht sehr schwierig zu lernen, wie Sie verhindern können, dass Suchmaschinen eine Ihrer Seiten indizieren, je nachdem, wie Sie dies tun.

Weitere Hilfe bei der SEO Ihrer Unternehmenswebsite finden Sie in der Checkliste für den Website-Start Meiner Firma, MARION.

International Blogging Network