Qué es y cómo optimizar el Crawl Budget

Lectura: 6 minutos
Share on twitter
Twitter
Share on facebook
Facebook
Share on linkedin
LinkedIn
Share on whatsapp
WhatsApp

En este artículo vamos a hablar sobre el Crawl Budget y la forma en la que los motores de búsqueda rastrean nuestra web.

Tener problemas de rastreo implica que Google (o cualquier motor de búsqueda) no está descubriendo todos los contenidos que publicamos.

Para prevenir esto, he detallado 9 acciones que mejorarán el presupuesto de rastreo de tu web.

¿Qué es el presupuesto de rastreo o crawl Budget?

Denominamos presupuesto de rastreo a la cantidad de recursos que Google destina a rastrear nuestro sitio web.

La capacidad de rastreo de cualquier motor de búsqueda es finita, por lo que diariamente se rastrearán un número limitado de urls.

En sitios webs pequeños no debemos preocuparnos en exceso de este aspecto. Los problemas surgen sobre todo en sitios webs muy grandes o ecommerce con un catálogo muy amplio.

Para entender mejor todo esto, debemos saber que para Google el Crawl Budget está compuesto por dos aspectos:

  • Crawl rate limit: Límite máximo que Google puede rastrear sin afectar al rendimiento de la web ni a la experiencia de usuario. Depende sobre todo de la velocidad de carga y de la salud interna de la web.
  • Crawl demand: Depende de la frecuencia de actualización o publicación de nuevos contenidos y de la popularidad del sitio.
Es muy importante conocer que para Google, el Crawl Budget o presupuesto de rastreo está compuesto por 2 aspectos: El límite de rastreo y la demanda de rastreo Clic para tuitear

De forma puntual puede aumentar la demanda de rastreo para así reindexar todos los cambios. Esto ocurre en migraciones o cambios en la arquitectura web.

¿Por qué es necesario optimizarlo?

El proceso “normal” para indexar un contenido por parte de un motor de búsqueda es el siguiente:

  1. Descubre un nuevo contenido a través de enlaces
  2. Rastrea dicho contenido
  3. Lo agrega al índice

Si ese contenido no es rastreado, es como si no existiera para Google. No indexa y no podremos captar tráfico orgánico con él.

Esto es un gran problema, porque supondría que estamos generando contenidos que no están dando resultados y además estamos desperdiciando recursos.

Si queremos tener un proyecto SEO exitoso, debemos asegurarnos que todo el contenido que nos interesa está siendo rastreado e indexado.

Quiero matizar la parte de “nos interesa”. Porque habrá partes de la web que tengan 0 interés de cara al SEO, y por lo tanto no queremos que los robots pierdan el tiempo rastreándolas.

¿Cómo saber cuánto rastrea Google nuestra web?

Para ver cómo se está rastreando concretamente nuestra web debemos analizar los logs del servidor.

Esto es el registro de accesos o peticiones a nuestra web.

Como los logs descargados del servidor están en formato texto, podemos utilizar programas como Log File Analyzer de SEMrush o Log Analyser de Screaming Frog para poder interpretar y analizarlos mejor.

Si no queremos llegar hasta este nivel (muchas veces no será necesario) podemos utilizar la herramienta que nos proporciona Google a través de Search Console.

La herramienta Estadísticas de rastreo nos muestra la siguiente información:

  • Páginas rastreadas al día
  • Kilobytes descargados al día       
  • Tiempo de descarga de una página

Todos estos datos se muestran a nivel global de la web y nos indica la actividad de Googlebot en los últimos 90 días.

Así mismo nos indica los valores promedio, alto y bajo para poder detectar anomalías en el rastreo.

La herramienta de estadísticas de rastreo se encuentra a fecha de publicación del artículo en la versión antigua de Search Console. Puede acceder a través del siguiente enlace: https://www.google.com/webmasters/tools/crawl-stats

9 acciones para mejorar el presupuesto de rastreo

Ahora que ya sabemos qué es el crawl Budget, vamos a ver acciones concretas para optimizarlo y conseguir que las partes importantes de nuestra web sean rastreadas.

Eliminar urls innecesarias y contenido duplicado

En SEO debemos seguir una máxima: Aportar solamente los contenidos susceptibles de captar tráfico orgánico.

Esto implica seleccionar muy bien las urls y contenidos que se van a generar en nuestra web.

Un ejemplo de urls innecesarias podrían ser los filtros de ordenación de un ecommerce. Generalmente cuando un ecommerce presenta un selector para ordenar los productos, genera una nueva url por cada orden generado.

Si en lugar de generar esta nueva url, cargamos el contenido dinámicamente, estamos evitando que Google rastree esas urls que no aportan nada en términos de SEO.   

Genera o muestra únicamente urls con contenido único y de valor para los motores de búsqueda.

Utiliza noindex

Noindex es una etiqueta que indica a los motores de búsqueda que no queremos que dicho contenido sea indexado.

Según experimentos que se han realizado, cuando se utiliza esta etiqueta, ese contenido comienza a ser menos rastreado.

Si no queremos que un contenido aparezca en los motores de búsqueda pero necesitamos sí aparezca en nuestra web, lo mejor es ponerlo como noindex.

Utiliza noindex para que Google rastree con menos frecuencia ese contenido.

Utilizar el robots.txt

Una opción interesante para evitar el rastreo de determinados contenidos o directorios de la web es el uso del robots.txt

Mediante directivas disallow podemos impedir que Google rastree determinadas partes de nuestra web.

Su uso es común para búsquedas internas generadas en la web, filtrados, o contenidos que generan los usuarios.

Emplea el robots.txt para evitar el rastreo de algunas partes de tu web.

Cuidado al utilizar conjuntamente noindex en el contenido y disallow en robots.txt en un contenido ya indexado. Esto podría provocar que permaneciera indexado al no poder acceder los bots a leer la etiqueta noindex.

Eliminar enlaces rotos y redirecciones

Ya hemos visto que Google rastrea un número limitado de urls al día.

Si el bot se encuentra con redirecciones o enlaces rotos internos, estamos desperdiciando presupuesto de rastreo, ya que está intentando acceder a contenido que no existe.

Estamos desaprovechando una oportunidad de que rastree un nuevo contenido.

Mantén una buena salud interna de tu web donde no existan redirecciones ni enlaces rotos para facilitar la labor de rastreo a los bots.

Cuida tu sitemap.xml

El sitemap.xml es el archivo de referencia que los motores de búsqueda consultan para ver cambios o actualizaciones en el contenido de la web.

Indicar urls que no existen, causan redirección, están en noindex, o aparecen bloqueadas en robots.txt es otra forma de desperdiciar presupuesto de rastreo.

Mantén el sitemap.xml actualizado, sirviendo únicamente contenido que sea útil de cara al SEO.

Mejora la velocidad de carga de la web

Como hemos comentado, el límite de rastreo se mide en función de urls rastreadas y kilobytes descargados.

Si una web es muy lenta y pesada, esto afectará negativamente a su rastreo.

Tengo más que comprobado que cuando se mejora el tiempo de carga y se aligera el peso de la web, aumenta el número de urls rastreadas.

Disminuye el peso de tu sitio y mejora su velocidad de carga para aprovechar los recursos que los motores de búsqueda dedican a tu web.

Aumenta la frecuencia de publicaciones

Si acostumbramos a los robots a que periódicamente publicamos contenidos nuevos y actualizamos nuestra web, visitará nuestro sitio con más frecuencia.

Estas señales son conocidas también con el nombre de freshness.

Puedes comprobar por ti mismo que cuanto menos actualices tu web, más tardará en rastrear e indexar los nuevos contenidos que publiques.

Publica frecuentemente para acostumbrar a los bots a rastrear tu sitio en busca de nuevos contenidos.

Mejora la arquitectura web y enlazado interno

A excepción del sitemap.xml y enviar la url a través de Search Console, la única forma de descubrir contenidos que tienen los bots es a través de los enlaces.

Organizar de forma lógica la web ayudándonos del enlazado interno facilitará en gran medida el rastreo.

Siendo así, nos interesa que todos los contenidos tengan al menos un enlace interno para que los robots puedan acceder a ellos.

Los contenidos más enlazados tienen más probabilidades de ser rastreados.

Mejora la estructura de tu web y enlaza con mayor frecuencia los contenidos más relevantes para aumentar su rastreo

Aumenta la popularidad del sitio

Otro aspecto que afecta directamente a la frecuencia de rastreo de una web es la popularidad del mismo.

Los robots no solo rastrean contenidos y enlaces internos. Cuando llegan a un enlace externo, los robots también pueden comenzar a rastrear esa otra web.

Dicho de otra forma: Cuantos más enlaces externos recibamos, más será rastreado nuestro sitio.

Trabaja una estrategia de link building para favorecer el rastreo hacia tu sitio web.

Hasta aquí este artículo sobre el crawl Budget o presupuesto de rastreo.

Espero que todos los conceptos mencionados hayan quedado claros.

Si tienes cualquier duda o quieres comentar cualquier aspecto, ¡te espero en los comentarios!

Share on twitter
Twitter
Share on facebook
Facebook
Share on linkedin
LinkedIn
Share on whatsapp
WhatsApp

Artículos relacionados

En este artículo vamos a hablar sobre los errores 404 y cómo afectan (negativamente) al...
Hoy es un día especial para mi. Lanzo mi primer curso de SEO. Pero realmente...
Una auditoría SEO es un análisis de los aspectos que afectan al posicionamiento de una...

15 comentarios en “Qué es y cómo optimizar el Crawl Budget”

  1. Buen post pero hay que dejar claro que esto no aplica a webs pequeñas de 100 páginas que suelen rastrearse si tienen enlaces internos y sitemap 😉

    Un abrazo

    1. Madre SEOperiora

      Hola Sergio. Sí, hay un punto al principio del post donde indico que esto para webs pequeñas no es tan relevante. Sobre todo esto tiene implicaciones en sitios con miles de urls

  2. Completísimo la publicación, pero la parte tan técnica es la que dificulta el sanear una web puesto que todo el mundo no sabe o no tiene presupuesto para que se lo miren.

    Saludos

    1. Madre SEOperiora

      Hola Jose. Gracias por tu comentario. Como bien comentas en SEO siempre tienes que invertir. O tiempo y conocimientos en hacerlo tu mismo o dinero para que alguien experto lo haga por ti.
      Saludos!

  3. Hola Madre muy bueno como siempre.

    Me gustaría profundizar un poco más con esto que mencionas: «Si en lugar de generar esta nueva url, cargamos el contenido dinámicamente, estamos evitando que Google rastree esas urls que no aportan nada en términos de SEO. » A que te refieres cuando dices «cargamos contenido dinámicamente», tengo una web de consulta donde hago algunos filtros para ordenar. Cómo se haría «dinámicamente».

    Gracias.

    1. Madre SEOperiora

      Hola Franklin. Gracias por tu comentario!
      Generalmente se hace a través de Ajax. Cambia los productos que se muestran, pero la url sigue siendo la misma. Por ejemplo, PcComponentes lo hace así

  4. Hola Madre, me confieso:

    – Hacer un ping al sitemap cada vez que haces un cambio en la web: ya sea modificar enlaces con redirecciones o cada vez que publicas un nuevo contenido, ¿ayuda a darle señales a Google para que rastree nuestro site?

    – En un ecommerce, ¿3 publicaciones semanales son suficientes para mantener un freshness dinámico?

    Saludos,

    1. Madre SEOperiora

      Hola Dani! Yo no suelo hacer ping al sitemap cuando lo actualizo. Si eso prefiero enviar a rastrear la url directamente.
      Respecto al ecommerce… depende mucho de lo grande que sea la web, del sector al que se dedique… Puede que sí sea suficiente o que se quede corto. Yo revisaría que hace la competencia que crece en orgánico

  5. Ricardo de la Rosa

    Madre SEOperiora, desconocía por completo esta característica del presupuesto de rastreo. La estaré analizando de cerca para mejorar el posicionamiento. ¡Gracias!

  6. Buenas Madre SEOperiora!!!!
    Y ¿Cómo influye en esto el envío del sitemap a Google?. En el sitemap se le indica a Google cuales son los nuevos y viejos contenidos, y se le envía de una manera estructurada y clara. Gracias

    1. Buenas! Un correcto sitemap en tu web ayudará a que se rastree un mayor números de contenidos cuando el site es muy grande o tiene carencias en el enlazado interno

    1. Hola Luis. Agradezco tu comentario pero creo que no has terminado de leer el artículo. Si lo lees completo verás que muestro 9 formas de optimizar el presupuesto de rastreo.
      Saludos!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Únete al Convento de
MadreSEOperiora

«No recibirás spam ni humo. Solo compartiré secretos del convento.» Palabra de Monja