{"id":20831,"date":"2025-10-03T09:37:05","date_gmt":"2025-10-03T07:37:05","guid":{"rendered":"https:\/\/dossetenta.com\/robots-txt-when-to-use-disallow\/"},"modified":"2025-10-03T09:37:05","modified_gmt":"2025-10-03T07:37:05","slug":"robots-txt-when-to-use-disallow","status":"publish","type":"post","link":"https:\/\/dossetenta.com\/en\/robots-txt-when-to-use-disallow\/","title":{"rendered":"Robots.txt without damaging your SEO: when to use Disallow (and when not to)"},"content":{"rendered":"<span class=\"span-reading-time rt-reading-time\" style=\"display: block;\"><span class=\"rt-label rt-prefix\">Tiempo de lectura:<\/span> <span class=\"rt-time\"> 3<\/span> <span class=\"rt-label rt-postfix\">minutos<\/span><\/span><p>\nEl archivo <b>robots.txt<\/b> es uno de los elementos m\u00e1s cr\u00edticos y, parad\u00f3jicamente, m\u00e1s malentendidos del SEO t\u00e9cnico. No es una herramienta de seguridad, ni un mecanismo para desindexar contenido. Es m\u00e1s bien, la hoja de ruta que le entregas a los <i>crawlers<\/i> de Google para optimizar su tiempo. Uno de los errores m\u00e1s comunes (y graves) es utilizar la <b>directiva Disallow<\/b> para intentar ocultar contenido privado o de baja calidad, creyendo que as\u00ed desaparecer\u00e1 de los resultados de b\u00fasqueda. Esta pr\u00e1ctica es un sabotaje directo.\n<\/p>\n<p>\nPor eso con este post quiero que aprendas a usar la <b>regla Disallow<\/b> como tu mejor aliada para gestionar el <b>Crawl Budget<\/b> (presupuesto de rastreo) y cu\u00e1ndo debes optar por una soluci\u00f3n distinta, como la etiqueta <b>noindex<\/b>, para evitar una indexaci\u00f3n indeseada.\n<\/p>\n<h2>\u00bfQu\u00e9 es el robots.txt y por qu\u00e9 importa (m\u00e1s de lo que crees)?<\/h2>\n<p>\nPiensa en el <b>fichero robots.txt<\/b> como el portero de discoteca de tu web. Cuando llega el Googlebot, el portero le da una lista de zonas prohibidas. Su objetivo no es esconder nada, sino gestionar el aforo. El principal concepto que entra en juego es el <b>Crawl Budget<\/b> (o Presupuesto de Rastreo). Google no tiene tiempo ilimitado para rastrear cada rinc\u00f3n de tu web, especialmente si tienes miles de URLs.\n<\/p>\n<blockquote><p>\nSi obligas a Google a gastar su valioso <i>crawl budget<\/i> rastreando p\u00e1ginas in\u00fatiles (filtros, b\u00fasquedas internas, URLs con par\u00e1metros), estar\u00e1 dejando de lado las que realmente te interesa que indexe y posicionen.\n<\/p><\/blockquote>\n<h2>La regla de oro del Disallow: cu\u00e1ndo S\u00cd usarlo<\/h2>\n<p>\nEl <b>Disallow<\/b> tiene un uso casi quir\u00fargico: hay que utilizarlo para <b>ahorrarle tiempo a Google<\/b> y dirigirlo hacia el contenido de valor.\n<\/p>\n<p><b>Debes usar la directiva <code>Disallow<\/code> cuando:<\/b><\/p>\n<ol>\n<li><b>Quieras optimizar tu <i>crawl budget<\/i><\/b>: Tienes URLs que sabes que Google rastrea, pero que no aportan valor SEO y son generadas autom\u00e1ticamente por tu CMS (por ejemplo, URLs de paginaci\u00f3n antiguas, <i>feeds<\/i> RSS, URLs de <i>staging<\/i> o pruebas, directorios de administraci\u00f3n).<\/li>\n<li><b>Manejes contenido duplicado interno sin valor SEO<\/b>: Los sistemas a menudo generan versiones duplicadas de una p\u00e1gina que, aunque no indexen por s\u00ed solas, s\u00ed gastan recursos al ser rastreadas. Bloqueando estos patrones de URL, le dices a Google: &#8220;No pierdas el tiempo aqu\u00ed, no hay nada nuevo&#8221;.<\/li>\n<li><b>Tengas archivos y <i>scripts<\/i> de sistema<\/b>: Bloquea directorios como \/wp-admin\/, <i>scripts<\/i> de <i>testing<\/i> o archivos de configuraci\u00f3n que no aportan nada al usuario ni a Google.<\/li>\n<\/ol>\n<p>En resumen: la <b>regla Disallow<\/b> sirve para <b>gestionar el tr\u00e1fico de rastreo<\/b>, no para ocultar secretos.<\/p>\n<h2>El gran error del Disallow: cu\u00e1ndo NO usarlo (y por qu\u00e9)<\/h2>\n<p>\nAqu\u00ed est\u00e1 el quid de la cuesti\u00f3n, el error que lleva a muchos SEOs novatos al borde del colapso: usar <b>Disallow<\/b> para intentar que una p\u00e1gina <b>no se indexe<\/b>.\n<\/p>\n<p><b>\u00a1Alerta!<\/b> Si una p\u00e1gina est\u00e1 en tu robots.txt con un Disallow&#8230;<\/p>\n<ol>\n<li><b>Google no la va a rastrear<\/b> (ahorras <i>crawl budget<\/i>).<\/li>\n<li><b>Google S\u00cd la puede indexar<\/b> si encuentra un enlace a esa p\u00e1gina desde otro sitio.<\/li>\n<\/ol>\n<p>S\u00ed, has le\u00eddo bien. Si Google encuentra un <i>link<\/i> externo (o incluso interno) a una p\u00e1gina bloqueada por la <b>directiva Disallow<\/b>, puede decidir indexarla. Lo peor es que el t\u00edtulo y la descripci\u00f3n ser\u00e1n vagos (a menudo como &#8220;Se muestra una descripci\u00f3n para este resultado debido al archivo robots.txt del sitio&#8221;). \u00a1Es el efecto contrario al deseado!<\/p>\n<h3>La soluci\u00f3n real para ocultar contenido<\/h3>\n<p>\nSi tu objetivo es que una p\u00e1gina <b>NO APAREZCA EN GOOGLE<\/b> (es decir, que no se indexe), tienes que usar la <b>etiqueta noindex:<\/b>\n<\/p>\n<ul>\n<li><b>P\u00e1gina privada, contenido confidencial o <i>landing page<\/i> de pago:<\/b> Usa la etiqueta <code>&lt;meta name=\"robots\" content=\"noindex, follow\"&gt;<\/code> dentro del &lt;head&gt; de la p\u00e1gina.<\/li>\n<li><b>\u00bfLa clave?<\/b> Para que Google lea el noindex, <b>tiene que poder rastrear la p\u00e1gina<\/b>. Por lo tanto, \u00a1nunca debes usar <b>Disallow<\/b> y <b>noindex<\/b> a la vez!<\/li>\n<\/ul>\n<p><b>El uso correcto:<\/b><\/p>\n<table>\n<thead>\n<tr>\n<th>Objetivo<\/th>\n<th>Acci\u00f3n Correcta<\/th>\n<th>D\u00f3nde Aplicarlo<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td><b>Ahorrar <i>Crawl Budget<\/i><\/b><\/td>\n<td><b>Disallow<\/b><\/td>\n<td>Fichero <code>robots.txt<\/code><\/td>\n<\/tr>\n<tr>\n<td><b>Bloquear indexaci\u00f3n<\/b><\/td>\n<td><b>Noindex<\/b><\/td>\n<td>C\u00f3digo HTML de la URL<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2>La sintaxis, explicada para <i>dummies<\/i><\/h2>\n<p>Manejar la <b>sintaxis del Disallow<\/b> es f\u00e1cil si sigues unas reglas. Recuerda que es sensible a may\u00fasculas y min\u00fasculas.<\/p>\n<p><b>1. Bloquear todo el directorio de administraci\u00f3n (el cl\u00e1sico):<\/b><\/p>\n<pre>\r\nUser-agent: *\r\nDisallow: \/wp-admin\/\r\n<\/pre>\n<p><b>2. Bloquear todas las URLs que contengan un par\u00e1metro de b\u00fasqueda (t\u00edpico en <i>e-commerce<\/i>):<\/b><\/p>\n<pre>\r\nUser-agent: *\r\nDisallow: \/*?*\r\n<\/pre>\n<p><i>(Usamos el asterisco * como comod\u00edn para cualquier car\u00e1cter)<\/i><\/p>\n<p><b>3. Bloquear solo para un bot espec\u00edfico (ej. Bing):<\/b><\/p>\n<pre>\r\nUser-agent: Bingbot\r\nDisallow: \/zona-secreta\/\r\n<\/pre>\n<p><b>4. Permitir el acceso a todo (el estado Zen):<\/b><\/p>\n<pre>\r\nUser-agent: *\r\nDisallow:\r\n<\/pre>\n<p><i>(Dejar la directiva Disallow vac\u00eda)<\/i><\/p>\n<h2>Pon orden en el tr\u00e1fico de tu web<\/h2>\n<p>\nEl <b>robots.txt<\/b> es un archivo potent\u00edsimo. \u00dasalo para lo que fue dise\u00f1ado: gestionar el rastreo. Recuerda: si usas la <b>regla Disallow<\/b> a la ligera, es como si pusieras una valla invisible en tu casa: la gente seguir\u00e1 sabiendo que est\u00e1 ah\u00ed, pero no sabr\u00e1n lo que hay dentro. Si quieres que la gente <b>no sepa que existe<\/b>, usa <b>noindex<\/b>.\n<\/p>\n<p>Revisa tu robots.txt hoy mismo, optimiza tu <b>crawl budget<\/b> y aseg\u00farate de que est\u00e1s enviando a Google a las p\u00e1ginas que te har\u00e1n ganar dinero.<\/p>\n<p><b>\u00bfTe ha resultado \u00fatil?<\/b> Si has pillado la diferencia entre <b>Disallow<\/b> y <b>noindex<\/b> y has aprendido a cuidar tu <i>crawl budget<\/i>, \u00a1comp\u00e1rtelo en tus redes!<\/p>\n","protected":false},"excerpt":{"rendered":"<p><span class=\"span-reading-time rt-reading-time\" style=\"display: block;\"><span class=\"rt-label rt-prefix\">Tiempo de lectura:<\/span> <span class=\"rt-time\"> 3<\/span> <span class=\"rt-label rt-postfix\">minutos<\/span><\/span>El archivo robots.txt es uno de los elementos m\u00e1s cr\u00edticos y, parad\u00f3jicamente, m\u00e1s malentendidos del SEO t\u00e9cnico. No es una herramienta de seguridad, ni un mecanismo para desindexar contenido. Es&#8230;<\/p>\n","protected":false},"author":20,"featured_media":20142,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"inline_featured_image":false,"footnotes":""},"categories":[217],"tags":[],"class_list":["post-20831","post","type-post","status-publish","format-standard","has-post-thumbnail","category-seo-en"],"_links":{"self":[{"href":"https:\/\/dossetenta.com\/en\/wp-json\/wp\/v2\/posts\/20831","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/dossetenta.com\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/dossetenta.com\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/dossetenta.com\/en\/wp-json\/wp\/v2\/users\/20"}],"replies":[{"embeddable":true,"href":"https:\/\/dossetenta.com\/en\/wp-json\/wp\/v2\/comments?post=20831"}],"version-history":[{"count":0,"href":"https:\/\/dossetenta.com\/en\/wp-json\/wp\/v2\/posts\/20831\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/dossetenta.com\/en\/wp-json\/wp\/v2\/media\/20142"}],"wp:attachment":[{"href":"https:\/\/dossetenta.com\/en\/wp-json\/wp\/v2\/media?parent=20831"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/dossetenta.com\/en\/wp-json\/wp\/v2\/categories?post=20831"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/dossetenta.com\/en\/wp-json\/wp\/v2\/tags?post=20831"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}