Articles / julio 31, 2021

Cómo Evitar que los motores de búsqueda indexen una página

Recientemente ayudé a un cliente a eliminar un video de YouTube antiguo de su canal. No tenían la intención de ponerlo a disposición del público, y no se dieron cuenta de que lo estaba hasta que buscaron en Google.

Si bien esto no desindexará inmediatamente la página de Google, me hizo pensar en razones por las que alguien podría querer evitar que los motores de búsqueda indexen una página antes de que se produzca cualquier daño.

3 Razones para impedir que Google indexe una página

Aunque hay muy pocas razones urgentes por las que quieras aprender a evitar que Google indexe una página, estas son algunas de las razones de marketing para hacerlo.

Mejore su Seguimiento y Atribución de objetivos

Para muchos webmasters y marketers, los objetivos para completar formularios se rastrean mediante visitas a una página de Agradecimiento. Para evitar que tu página de Agradecimiento reciba tráfico orgánico accidentalmente, querrás aprender a evitar que Google indexe la página por completo.

Si tienes tráfico orgánico en tu página además de los usuarios que han rellenado tus formularios, tus objetivos y la tasa de conversión de objetivos no serán precisos.

Reducir Páginas sin Valor de usuario

Si bien es un modelo excesivamente simplista, casi puedes imaginar que tu sitio tiene un conjunto de valor SEO.

Para un sitio con 10 páginas, cada página obtiene aproximadamente 1/10 del valor SEO. Si el propietario del sitio ha aprendido a investigar palabras clave y ha optimizado todas sus páginas, todas esas páginas serán eficientes y efectivas para generar tráfico orgánico.

Por el contrario, imagine un sitio con 100 páginas. Hay cuatro páginas que en realidad hablan de los servicios de una empresa, y las otras 96 páginas son “publicaciones de blog” que en realidad son solo el propietario que descarga información en su sitio. Estas páginas no están dirigidas a las necesidades conocidas de la audiencia y no están optimizadas para ningún grupo de palabras clave relevante.

En nuestro modelo simplificado, el conjunto de valor de SEO está disperso. Cada una de las cuatro páginas de servicios recibe 1/100 del valor SEO agregado del sitio, lo que las hace muy débiles a pesar de que están relativamente optimizadas. Las otras 96 páginas están recibiendo 96/100 partes del valor, pero son callejones sin salida que atrapan y desperdician el potencial de clasificación de su sitio web.

Aprender a evitar que los motores de búsqueda indexen una página (o 96) es una excelente manera de evitar que el valor SEO de su sitio se extienda demasiado. Puede ocultar la mayor parte de su sitio web de los motores de búsqueda para que Google solo conozca las páginas útiles y relevantes que merecen ser encontradas.

Evitar problemas de contenido duplicado

Publicar una página que es idéntica o casi idéntica a otra página en Internet puede causar una toma de decisiones innecesaria para Google.

¿Qué página es la original? Incluso si una de las páginas se publicó primero, ¿la página duplicada que siguió a la fuente más autorizada? Si ambas páginas están en tu sitio web, ¿cuál pretendías incluir en los resultados de búsqueda de Google? Puede que no siempre te guste el resultado.

Para evitar problemas de contenido duplicado, puedes intentar evitar que los bots rastreen ciertas páginas de tu sitio.

Cómo evitar que Google indexe una página

El método más fácil y común para evitar que los motores de búsqueda indexen una página es incluir la etiqueta meta noindex.

Incluir la etiqueta Noindex

La meta etiqueta noindex se utiliza entre las etiquetas HTML <head></head> en una página web para evitar que los bots de motores de búsqueda incluyan esa página en su índice. Esto aún permite que los rastreadores lean tus páginas, pero sugiere que no incluyan una copia para que se muestre en sus resultados de búsqueda.

La etiqueta noindex para evitar que los motores de búsqueda indexen una página se ve así:

<meta name="robots" content="noindex">

Si solo te preocupa evitar que Google indexe una página, puedes usar el siguiente código:

<meta name="googlebot" content="noindex">

Si estás usando WordPress como tu CMS (lo cual recomiendo encarecidamente), entonces es posible que desees usar el plugin Yoast SEO (lo cual también recomiendo encarecidamente). Con un par de clics de su ratón, puede agregar la etiqueta noindex a cualquier página que desee.

En el backend de cualquier página, desplázate hacia abajo hasta tu cuadro de SEO Yoast. A continuación, haga clic en el icono de engranaje y cambie el campo desplegable que dice “¿Permitir que los motores de búsqueda muestren esta publicación en los resultados de búsqueda?”decir” No.”

cómo evitar que Google rastree mi meta etiqueta noindex de sitio

Esto no es una directiva, por lo que el motor de búsqueda puede elegir ignorar tu meta etiqueta noindex. Para una técnica más robusta, puede usar sus robots.archivo txt.

No permitir Bots en Sus Robots.txt

Si quieres asegurarte de que bots como Googlebot y Bingbot no pueden rastrear tus páginas, puedes agregar directivas a tus robots.archivo txt.

Robots.txt es el archivo que se encuentra en la raíz de un servidor Apache que puede impedir que ciertos bots lleguen a sus páginas en primer lugar. Es importante tener en cuenta que a algunos bots se les puede indicar que ignoren a sus robots.archivo txt, por lo que solo puedes bloquear los bots “buenos” con esta técnica.

Usemos una página de su sitio, https://www.mysite.com/example-page/, como ejemplo. Para impedir que todos los bots accedan a esta página, debe usar el siguiente código en sus robots.txt:

User-agent: *Disallow: /example-page/

Ten en cuenta que no tienes que usar tu URL completa, solo el URI que viene después de tu nombre de dominio. Si solo quieres impedir que el Googlebot rastree la página, puedes usar el siguiente código:

User-agent: GooglebotDisallow: /example-page/

Evita que los Bots Rastreen Tu Sitio.htaccess

Personalmente no conozco a ningún cliente que necesite usar esto, pero puedes usar el tuyo .archivo htaccess para impedir que cualquier agente de usuario rastree su sitio.

Esta es una forma de evitar por completo que Google rastree tu sitio que no puede ser ignorado, incluso por bots “malos”. La advertencia es que se trata de una solución más amplia y menos dirigida a una página específica. Administrar la denegación de acceso dirigida para varias páginas dentro de su .el archivo htaccess sería una pesadilla.

El código para bloquear el Googlebot solo se vería así:

RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} Googlebot RewriteRule .* -

Si desea bloquear varios bots a la vez, puede configurar su código de esta manera:

RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} ^.*(Googlebot|Bingbot|Baiduspider).*$ RewriteRule .* -

Aprender a evitar que el motor de búsqueda indexe una de sus páginas a veces es necesario, y no es muy difícil dependiendo de cómo elija hacerlo.

Para obtener más ayuda con el SEO del sitio web de su empresa, consulte la lista de verificación de lanzamiento del sitio web de mi empresa, MARION.

International Blogging Network