¿Qué es la meta robots?
La etiqueta <meta name="robots"> es una directiva HTML que se coloca en el <head> de cada página. Indica a los crawlers de los buscadores cómo deben tratar esa URL concreta.
Con ella defines, página por página:
- Si pueden indexarla.
- Si pueden seguir sus enlaces.
- Si pueden mostrar fragmentos en las SERPs.
A diferencia de robots.txt, que opera a nivel de directorio y solo controla el rastreo, meta robots actúa a nivel de página. Controla la indexación, el snippet y el comportamiento del rich result.
Sintaxis básica
<meta name="robots" content="index, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, follow, max-snippet:-1, max-image-preview:large">
Para directivas específicas de Google (no estándar), usa <meta name="googlebot" content="...">.
Directivas más usadas
| Directiva | Significado |
|---|---|
index (default) | Permitir indexar |
noindex | NO indexar (la página no aparece en SERPs) |
follow (default) | Seguir enlaces salientes |
nofollow | NO seguir enlaces |
noarchive | NO mostrar versión en caché |
nosnippet | NO mostrar snippet textual ni preview |
noimageindex | NO indexar imágenes de la página |
notranslate | NO ofrecer traducción automática |
unavailable_after: <fecha> | NO indexar después de esa fecha |
max-snippet:N | Limitar snippet a N caracteres (-1 = sin límite) |
max-image-preview:none|standard|large | Tamaño máximo de preview |
max-video-preview:N | Segundos máximos de preview de vídeo (-1 = sin límite) |
Equivalente HTTP: X-Robots-Tag
Las mismas directivas pueden enviarse como cabecera HTTP. Es la opción útil para PDFs, imágenes y otros recursos no-HTML:
X-Robots-Tag: noindex, nofollow
Así controlas la indexación de PDFs, JPEGs y similares. No hace falta ponerles meta tags, que no existen en esos formatos.
Casos de uso típicos
- Páginas de gracias (
/contacto/gracias/):noindex, follow. Evita que aparezcan en SERPs como página de aterrizaje. - Búsquedas internas (
/?q=...):noindex, follow. Evita indexar resultados duplicados. - Filtros de catálogo (
/productos?talla=M):noindex, follow. Estas variantes crean cientos de URLs duplicadas. - Páginas de admin o login:
noindex, nofollow. - Páginas en construcción:
noindextemporal. - Borradores y previews:
noindexsiempre.
Cuidados especiales
noindex con disallow en robots.txt es contradictorio. Si robots.txt bloquea el rastreo, Google nunca verá la meta noindex. La página puede seguir indexada por enlaces externos, pero sin contenido. La solución es usar meta noindex SIN bloquear en robots.txt, para que Google rastree y descubra la directiva.
nofollow no impide el ranking del enlace destino. Solo impide que se transfiera “link juice”. Desde 2020 Google la trata como hint, no como directiva.
noindex no es retroactivo. Tarda en aplicarse hasta que el crawler vuelve a pasar. Para acelerarlo, sube el cambio y usa Search Console URL Inspection > “Request Indexing”.
Schema.org como alternativa parcial
Schema.org no sustituye a meta robots, pero permite afinar el rich result. Declarar WebPage > about > noindex no funciona: el control real es solo vía meta o cabecera.
Cómo lo aplicamos en smedialab.es
El Layout principal acepta una prop noIndex. Si vale true, emite <meta name="robots" content="noindex, nofollow"> y omite el LocalBusinessSchema para no enviar señales contradictorias (H-84 documentado en docs/). Las páginas legales (privacidad, cookies) y el 404 usan esta prop.
Para clientes de SEO auditamos meta robots página por página antes de cada migración o lanzamiento. Así detectamos noindex accidentales heredados de entornos de staging.