Articles / Luglio 31, 2021

Come impedire ai motori di ricerca di indicizzare una pagina

Recentemente ho aiutato un cliente a eliminare un vecchio video di YouTube dal proprio canale. Non avevano intenzione di renderlo disponibile al pubblico e non si rendevano conto che era fino a quando Google non si è cercato.

Anche se questo non sarà immediatamente deindex la pagina da Google, mi ha fatto pensare di motivi che qualcuno potrebbe voler impedire ai motori di ricerca di indicizzare una pagina prima di qualsiasi danno è fatto.

3 Motivi per bloccare Google dall’indicizzazione di una pagina

Mentre ci sono pochissimi motivi urgenti che potresti voler imparare come impedire a Google di indicizzare una pagina, ecco alcuni dei motivi di marketing per farlo.

Migliora il tuo tracciamento e l’attribuzione degli obiettivi

Per molti webmaster e marketer, gli obiettivi per il completamento dei moduli vengono monitorati dalle visite a una pagina di ringraziamento. Per evitare che la tua pagina di Ringraziamento riceva accidentalmente traffico organico, ti consigliamo di imparare come impedire a Google di indicizzare completamente la pagina.

Se hai un traffico organico sulla tua pagina oltre agli utenti che hanno compilato i tuoi moduli, i tuoi obiettivi e il tasso di conversione degli obiettivi non saranno accurati.

Riduci le pagine senza valore utente

Mentre è un modello eccessivamente semplicistico, puoi quasi immaginare che il tuo sito abbia un pool di valori SEO.

Per un sito con 10 pagine, ogni pagina ottiene circa 1/10 del valore SEO. Se il proprietario del sito ha imparato a fare ricerca di parole chiave e ottimizzato loro tutte le pagine, tutte quelle pagine sarà efficiente ed efficace a generare traffico organico.

Al contrario, immagine un sito con 100 pagine. Ci sono quattro pagine che in realtà parlano di servizi di un’azienda, e le altre 96 pagine sono “post di blog” che sono in realtà solo il proprietario che scarica le informazioni sul loro sito. Queste pagine non rispondono alle esigenze note del pubblico e non sono ottimizzate per gruppi di parole chiave pertinenti.

Nel nostro modello semplificato, il pool di valore SEO è sparso sottile. Ognuna delle quattro pagine dei servizi riceve 1/100 del valore SEO aggregato del sito, rendendole molto deboli anche se relativamente ottimizzate. Le altre 96 pagine stanno ricevendo un 96 / 100ths del valore, ma sono vicoli ciechi che intrappolano e sprecano il potenziale di ranking del tuo sito web.

Imparare a impedire ai motori di ricerca di indicizzare una pagina (o 96) è un ottimo modo per mantenere il valore SEO del tuo sito troppo sottile. Puoi nascondere la maggior parte del tuo sito web dai motori di ricerca in modo che Google conosca solo le pagine utili e pertinenti che meritano di essere trovate.

Evitare problemi di contenuti duplicati

La pubblicazione di una pagina identica o quasi identica a un’altra pagina su Internet può causare un processo decisionale non necessario per Google.

Quale pagina è l’originale? Anche se una delle pagine è stata pubblicata per prima, la pagina duplicata che ha seguito la fonte più autorevole? Se entrambe le pagine sono sul tuo sito web, quale hai intenzione di essere incluso nei risultati di ricerca di Google? Potrebbe non piacerti sempre il risultato.

Per evitare di causare problemi di contenuti duplicati, puoi provare a impedire ai bot di eseguire la scansione di determinate pagine del tuo sito.

Come impedire a Google di indicizzare una pagina

Il metodo più semplice e più comune per impedire ai motori di ricerca di indicizzare una pagina è includere il tag meta noindex.

Includi il tag Noindex

Il meta tag noindex viene utilizzato tra i tag HTML<head></head > in una pagina web per impedire ai bot dei motori di ricerca di includere quella pagina nel loro indice. Ciò consente comunque ai crawler di leggere le tue pagine, ma suggerisce che non ne includano una copia da pubblicare nei risultati di ricerca.

Il tag noindex per impedire ai motori di ricerca di indicizzare una pagina simile a questa:

<meta name="robots" content="noindex">

Se sei solo preoccupato per impedire a Google di indicizzare una pagina, è possibile utilizzare il codice riportato di seguito:

<meta name="googlebot" content="noindex">

Se si utilizza WordPress come CMS (che consiglio vivamente), quindi si consiglia di utilizzare il Yoast SEO plugin (che anche io consiglio vivamente). Con un paio di clic del mouse, è possibile aggiungere il tag noindex a qualsiasi pagina che si desidera.

Nel backend di qualsiasi pagina, scorri verso il basso fino alla tua casella Yoast SEO. Quindi fare clic sull’icona dell’ingranaggio e modificare il campo a discesa che dice ” Consenti ai motori di ricerca di mostrare questo post nei risultati di ricerca?”per dire” No.”

come impedire a Google di strisciare il mio sito noindex meta tag

Questa non è una direttiva, quindi il motore di ricerca può scegliere di ignorare il tuo meta noindex tag. Per una tecnica più robusta, puoi usare i tuoi robot.file txt.

Non consentire i bot nei robot.txt

Se vuoi essere sicuro che bot come Googlebot e Bingbot non possano eseguire la scansione delle tue pagine, puoi aggiungere direttive ai tuoi robot.file txt.

Robot.txt è il file che si trova nella radice di un server Apache che può impedire a determinati bot di arrivare alle tue pagine in primo luogo. È importante notare che alcuni bot possono essere istruiti a ignorare i robot.file txt, quindi puoi davvero bloccare solo i bot “buoni” con questa tecnica.

Usiamo una pagina sul tuo sito, https://www.mysite.com/example-page/, come esempio. Per impedire a tutti i bot di accedere a questa pagina, è necessario utilizzare il seguente codice nei robot.txt:

User-agent: *Disallow: /example-page/

Si noti che non è necessario utilizzare l’URL completo, solo l’URI che viene dopo il nome di dominio. Se si desidera solo bloccare Googlebot dalla scansione della pagina, è possibile utilizzare il seguente codice:

User-agent: GooglebotDisallow: /example-page/

Fermare i bot di strisciare il tuo sito con .htaccess

Personalmente non conosco alcun client che avrebbe mai bisogno di usarlo, ma puoi usare il tuo .file htaccess per bloccare qualsiasi user-agent dalla scansione del tuo sito.

Questo è un modo per fermare completamente Google dalla scansione del tuo sito che non può essere ignorato, anche dai bot “cattivi”. L’avvertenza è che questa è più una soluzione ampia e meno mirata a una pagina specifica. Gestire la negazione mirata di accesso per diverse pagine all’interno del vostro .il file htaccess sarebbe un incubo.

Il codice per bloccare Googlebot sarebbe simile a questo:

RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} Googlebot RewriteRule .* -

Se vuoi bloccare più bot alla volta, puoi impostare il tuo codice in questo modo:

RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} ^.*(Googlebot|Bingbot|Baiduspider).*$ RewriteRule .* -

Imparare a impedire ai motori di ricerca di indicizzare una delle tue pagine è a volte necessario e non molto difficile a seconda di come scegli di farlo.

Per ulteriori informazioni sul SEO del tuo sito web aziendale, controlla la lista di controllo di my company, MARION, website launch.

International Blogging Network