¿Qué es la meta robots?
La etiqueta <meta name="robots"> es una directiva HTML colocada en el <head> de cada página que indica a los crawlers de los buscadores cómo deben tratar esa URL específica: si pueden indexarla, si pueden seguir sus enlaces, si pueden mostrar fragmentos en SERPs, etc.
A diferencia de robots.txt (que opera a nivel de directorio y solo controla rastreo), meta robots opera a nivel de página y controla indexación, snippet y comportamiento del rich result.
Sintaxis básica
<meta name="robots" content="index, follow">
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="index, follow, max-snippet:-1, max-image-preview:large">
Para directivas específicas de Google (no estándar): <meta name="googlebot" content="...">.
Directivas más usadas
| Directiva | Significado |
|---|---|
index (default) | Permitir indexar |
noindex | NO indexar (la página no aparece en SERPs) |
follow (default) | Seguir enlaces salientes |
nofollow | NO seguir enlaces |
noarchive | NO mostrar versión en caché |
nosnippet | NO mostrar snippet textual ni preview |
noimageindex | NO indexar imágenes de la página |
notranslate | NO ofrecer traducción automática |
unavailable_after: <fecha> | NO indexar después de esa fecha |
max-snippet:N | Limitar snippet a N caracteres (-1 = sin límite) |
max-image-preview:none|standard|large | Tamaño máximo de preview |
max-video-preview:N | Segundos máximos de preview de vídeo (-1 = sin límite) |
Equivalente HTTP: X-Robots-Tag
Las mismas directivas pueden enviarse como cabecera HTTP, útil para PDFs, imágenes y recursos no-HTML:
X-Robots-Tag: noindex, nofollow
Permite controlar la indexación de PDFs, JPEGs, etc., sin tener que ponerles meta tags (que no existen en esos formatos).
Casos de uso típicos
- Páginas de gracias (
/contacto/gracias/):noindex, follow— no quieres que aparezca en SERPs como página de aterrizaje. - Búsquedas internas (
/?q=...):noindex, follow— evita indexar resultados duplicados. - Filtros de catálogo (
/productos?talla=M):noindex, follow— variantes que crean cientos de URLs duplicadas. - Páginas de admin / login:
noindex, nofollow. - Páginas en construcción:
noindextemporal. - Borradores y previews:
noindexsiempre.
Cuidados especiales
noindexcondisallowen robots.txt es contradictorio: si robots.txt bloquea el rastreo, Google nunca verá lameta noindex. La página puede seguir indexada por enlaces externos, pero sin contenido. Solución: usarmeta noindexSIN bloquear en robots.txt para que Google rastree y descubra la directiva.nofollowno impide ranking del enlace destino; solo impide que se transfiera “link juice”. Desde 2020 Google la trata como hint, no como directiva.noindexno es retroactivo: tarda en aplicarse hasta que el crawler vuelva. Para acelerar: subir el cambio + Search Console URL Inspection > “Request Indexing”.
Schema.org como alternativa parcial
Schema.org no sustituye a meta robots, pero permite afinar el rich result. Por ejemplo, declarar WebPage > about > noindex no funciona; el control real es solo vía meta o cabecera.
Cómo lo aplicamos en smedialab.es
El Layout principal acepta una prop noIndex que, si es true, emite <meta name="robots" content="noindex, nofollow"> y omite el LocalBusinessSchema para evitar enviar señales contradictorias (H-84 documentado en docs/). Las páginas legales (privacidad, cookies) y el 404 usan esta prop.
Para clientes de SEO auditamos meta robots página por página antes de cada migración o lanzamiento, especialmente para detectar noindex accidentales heredados de entornos de staging.