Qué significa el Presupuesto de rastreo para Googlebot

Lunes, 16 de enero de 2017

Recientemente, hemos escuchado una serie de definiciones para “presupuesto de rastreo”, sin embargo, no tenemos un solo término que describa todo lo que significa “presupuesto de rastreo” externamente. Con este post aclararemos lo que realmente tenemos y lo que significa para el Googlebot.

En primer lugar, nos gustaría enfatizar que el presupuesto de rastreo, como se describe a continuación, no es algo de lo que la mayoría de los editores tengan que preocuparse. Si las páginas nuevas tienden a rastrearse el mismo día en que se publican, el presupuesto de rastreo no es algo en lo que los webmasters deban enfocarse. Del mismo modo, si un sitio tiene menos de unos pocos miles de URL, la mayoría de las veces se rastreará de manera eficiente.

Priorizar qué rastrear, cuándo y cuánto recurso puede asignar el servidor que aloja el sitio al rastreo es más importante para sitios más grandes, o para aquellos que generan páginas automáticamente basadas en parámetros de URL, por ejemplo.

Límite de velocidad de rastreo

Googlebot está diseñado para ser un buen ciudadano de la web. Rastrear es su principal prioridad, mientras se asegura de que no degrade la experiencia de los usuarios que visitan el sitio. A esto lo llamamos el “límite de velocidad de rastreo”, que limita la velocidad máxima de obtención de un sitio determinado.

En pocas palabras, esto representa el número de conexiones paralelas simultáneas que Googlebot puede usar para rastrear el sitio, así como el tiempo que tiene que esperar entre las búsquedas. La tasa de rastreo puede subir y bajar en función de un par de factores:

  • Salud de rastreo: Si el sitio responde muy rápido durante un tiempo, el límite aumenta, lo que significa que se pueden usar más conexiones para rastrear. Si el sitio se ralentiza o responde con errores del servidor, el límite se reduce y el Googlebot se arrastra menos.
  • Límite establecido en la Consola de búsqueda: Los propietarios de sitios web pueden reducir el rastreo de Googlebot de su sitio. Ten en cuenta que establecer límites más altos no aumenta automáticamente el rastreo.

Demanda de rastreo

Incluso si no se alcanza el límite de velocidad de rastreo, si no hay demanda de indexación, habrá poca actividad del Googlebot. Los dos factores que desempeñan un papel importante en la determinación de la demanda de rastreo son:

  • Popularidad: Las URL que son más populares en Internet tienden a rastrearse más a menudo para mantenerlas más frescas en nuestro índice.
  • Estancamiento: Nuestros sistemas intentan evitar que las URL se vuelvan obsoletas en el índice.

Además, los eventos de todo el sitio, como los movimientos del sitio, pueden desencadenar un aumento en la demanda de rastreo para volver a indexar el contenido en las nuevas URL.

Tomando en conjunto la tasa de rastreo y la demanda de rastreo, definimos el presupuesto de rastreo como la cantidad de URL que el Googlebot puede y quiere rastrear.

Factores que afectan el presupuesto de rastreo

Según nuestro análisis, tener muchas URL de bajo valor agregado puede afectar negativamente el rastreo e indexación de un sitio. Encontramos que las URL de bajo valor agregado caen en estas categorías, en orden de importancia:

  • Identificadores de sesión y navegación facetados
  • Contenido duplicado en el sitio
  • Páginas de error suave
  • Páginas hackeadas
  • Espacios infinitos y proxies
  • Contenido de baja calidad y spam

Servidor de desperdicio los recursos en páginas como estas drenarán la actividad de rastreo de las páginas que realmente tienen valor, lo que puede causar un retraso significativo en descubrir contenido excelente en un sitio.

Preguntas más frecuentes

El rastreo es el punto de entrada para los sitios en los resultados de búsqueda de Google. El rastreo eficiente de un sitio web ayuda con su indexación en la búsqueda de Google.

¿La velocidad del sitio afecta mi presupuesto de rastreo? ¿Y los errores?

Hacer un sitio más rápido mejora la experiencia de los usuarios a la vez que aumenta la tasa de rastreo. Para Googlebot, un sitio rápido es un signo de servidores saludables, por lo que puede obtener más contenido en el mismo número de conexiones. Por otro lado, un número significativo de errores 5xx o tiempos de espera de conexión indican lo contrario, y el rastreo se ralentiza.

Recomendamos prestar atención al informe de errores de rastreo en Search Console y mantener bajo el número de errores del servidor.

¿Gatear es un factor de clasificación?

Una mayor tasa de rastreo no necesariamente conducirá a mejores posiciones en los resultados de búsqueda. Google utiliza cientos de señales para clasificar los resultados, y aunque el rastreo es necesario para estar en los resultados, no es una señal de clasificación.

¿Las URL alternativas y el contenido incrustado cuentan en el presupuesto de rastreo?

Generalmente, cualquier URL que rastree el Googlebot contará para el presupuesto de rastreo de un sitio. Las URL alternativas, como AMP o hreflang, así como el contenido incrustado, como CSS y JavaScript, incluidas las llamadas AJAX (como XHR), pueden tener que rastrearse y consumirán el presupuesto de rastreo de un sitio. Del mismo modo, las cadenas de redirección largas pueden tener un efecto negativo en el rastreo.

¿Puedo controlar el Googlebot con la directiva “retraso de rastreo”?

Los robots no estándar de “retraso de rastreo”.la directiva txt no es procesada por Googlebot.

¿Afecta la directiva nofollow al presupuesto de rastreo?

depende. Cualquier URL que se rastree afecta al presupuesto de rastreo, por lo que incluso si tu página marca una URL como nofollow, se puede rastrear si otra página de tu sitio, o cualquier página de la web, no etiqueta el enlace como nofollow.

Hacer URLs que no permitidos a través de robots.¿el txt afecta mi presupuesto de rastreo de alguna manera?

No, las URL no permitidas no afectan el presupuesto de rastreo.

Para obtener información sobre cómo optimizar el rastreo de su sitio, eche un vistazo a nuestra publicación de blog sobre optimización del rastreo de 2009 que aún es aplicable. Si tienes preguntas, ¡pregunta en los foros!

Publicado por Gary, Equipos de rastreo e Indexación

Leave a Reply