Skip to main content
Tiempo de lectura: 3 minutos

El archivo robots.txt es uno de los elementos más críticos y, paradójicamente, más malentendidos del SEO técnico. No es una herramienta de seguridad, ni un mecanismo para desindexar contenido. Es más bien, la hoja de ruta que le entregas a los crawlers de Google para optimizar su tiempo. Uno de los errores más comunes (y graves) es utilizar la directiva Disallow para intentar ocultar contenido privado o de baja calidad, creyendo que así desaparecerá de los resultados de búsqueda. Esta práctica es un sabotaje directo.

Por eso con este post quiero que aprendas a usar la regla Disallow como tu mejor aliada para gestionar el Crawl Budget (presupuesto de rastreo) y cuándo debes optar por una solución distinta, como la etiqueta noindex , para evitar una indexación indeseada.

Si quieres dominar tu SEO técnico, tienes que dominar este archivo. Empecemos.

 

¿Qué es el robots.txt y por qué importa (más de lo que crees)?

Piensa en el fichero robots.txt como el portero de discoteca de tu web. Cuando llega el Googlebot, el portero le da una lista de zonas prohibidas. Su objetivo no es esconder nada, sino gestionar el aforo. El principal concepto que entra en juego es el Crawl Budget (o Presupuesto de Rastreo). Google no tiene tiempo ilimitado para rastrear cada rincón de tu web, especialmente si tienes miles de URLs.

Si obligas a Google a gastar su valioso crawl budget rastreando páginas inútiles (filtros, búsquedas internas, URLs con parámetros), estará dejando de lado las que realmente te interesa que indexe y posicionen.

Ahí es donde la regla Disallow brilla, usándose con cabeza.

Tal vez te interese leer  Del SEO al GEO: cómo adaptarse a las búsquedas con IA

 

La regla de oro del Disallow: cuándo SÍ usarlo

El Disallow tiene un uso casi quirúrgico: hay que utilizarlo para ahorrarle tiempo a Google y dirigirlo hacia el contenido de valor.

Debes usar la directiva Disallow cuando:

  1. Quieras optimizar tu crawl budget: Tienes URLs que sabes que Google rastrea, pero que no aportan valor SEO y son generadas automáticamente por tu CMS (por ejemplo, URLs de paginación antiguas, feeds RSS, URLs de staging o pruebas, directorios de administración).
  2. Manejes contenido duplicado interno sin valor SEO: Los sistemas a menudo generan versiones duplicadas de una página que, aunque no indexen por sí solas, sí gastan recursos al ser rastreadas. Bloqueando estos patrones de URL, le dices a Google: «No pierdas el tiempo aquí, no hay nada nuevo».
  3. Tengas archivos y scripts de sistema: Bloquea directorios como /wp-admin/, scripts de testing o archivos de configuración que no aportan nada al usuario ni a Google.

En resumen: la regla Disallow sirve para gestionar el tráfico de rastreo, no para ocultar secretos.

 

El gran error del Disallow: cuándo NO usarlo (y por qué)

Aquí está el quid de la cuestión, el error que lleva a muchos SEOs novatos al borde del colapso: usar Disallow para intentar que una página no se indexe.

¡Alerta! Si una página está en tu robotts.txt con un Disallow…

  1. Google no la va a rastrear (ahorras crawl budget).
  2. Google SÍ la puede indexar si encuentra un enlace a esa página desde otro sitio.

Sí, has leído bien. Si Google encuentra un link externo (o incluso interno) a una página bloqueada por la directiva Disallow, puede decidir indexarla. Lo peor es que el título y la descripción serán vagos (a menudo como «Se muestra una descripción para este resultado debido al archivo robots.txt del sitio»). ¡Es el efecto contrario al deseado!

Tal vez te interese leer  Del SEO al GEO: cómo adaptarse a las búsquedas con IA

La solución real para ocultar contenido

Si tu objetivo es que una página NO APAREZCA EN GOOGLE (es decir, que no se indexe), tienes que usar la etiqueta noindex:

  • Página privada, contenido confidencial o landing page de pago: Usa la etiqueta <meta name="robots" content="noindex, follow"> dentro del <head> de la página.
  • ¿La clave? Para que Google lea el noindex, tiene que poder rastrear la página. Por lo tanto, ¡nunca debes usar Disallow y noindex a la vez! El Disallow le impediría ver la etiqueta y nunca desindexaría la página.

El uso correcto:

Objetivo Acción Correcta Dónde Aplicarlo
Ahorrar Crawl Budget Disallow Fichero robots.txt
Bloquear indexación Noindex Código HTML de la URL

 

La sintaxis, explicada para dummies

Manejar la sintaxis del Disallow es fácil si sigues unas reglas. Recuerda que es sensible a mayúsculas y minúsculas.

1. Bloquear todo el directorio de administración (el clásico):

User-agent: *
Disallow: /wp-admin/

2. Bloquear todas las URLs que contengan un parámetro de búsqueda (típico en e-commerce):

User-agent: *
Disallow: /*?*

(Usamos el asterisco * como comodín para cualquier carácter)

3. Bloquear solo para un bot específico (ej. Bing):

User-agent: Bingbot
Disallow: /zona-secreta/

4. Permitir el acceso a todo (el estado Zen):

User-agent: *
Disallow:

(Dejar la directiva Disallow vacía)

 

Pon orden en el tráfico de tu web

El robots.txt es un archivo potentísimo. Úsalo para lo que fue diseñado: gestionar el rastreo. Recuerda: si usas la regla Disallow a la ligera, es como si pusieras una valla invisible en tu casa: la gente seguirá sabiendo que está ahí, pero no sabrán lo que hay dentro. Si quieres que la gente no sepa que existe, usa noindex.

Tal vez te interese leer  Del SEO al GEO: cómo adaptarse a las búsquedas con IA

Revisa tu robots.txt hoy mismo, optimiza tu crawl budget y asegúrate de que estás enviando a Google a las páginas que te harán ganar dinero.

¿Te ha resultado útil? Si has pillado la diferencia entre Disallow y noindex y has aprendido a cuidar tu crawl budget, ¡compártelo en tus redes!

Guillermo Rodríguez

¡Hola! Me llamo Guillermo y soy SEO con más de 10 años de experiencia. Aunque me gustan todas las áreas del SEO, me he especializado en SEO local y analítica web, y es que me encanta transformar los datos de Analytics o Google Search Console en información útil con la que situar a tu negocio en el mapa. Como corredor aficionado sé que el posicionamiento web es una carrera de fondo, así que encontremos el ritmo adecuado para ponerte en cabeza.