Cómo hacer que tu sitio web sea legible para agentes de IA en 2026 (llms.txt, MCP Cards, Structured Data)
Le haces una pregunta a Perplexity sobre tu nicho de industria. Te da una respuesta limpia y bien documentada, citando a tres de tus competidores. Tu sitio, que tiene una guía definitiva sobre el tema exacto, no aparece por ninguna parte. Lo intentas de nuevo con ChatGPT, luego con Claude. El mismo resultado. Se siente como ser invisible.
Esto no es un fracaso del SEO tradicional. Tu posicionamiento en Google podría estar bien. Este es un problema nuevo: tu sitio web no es "legible para agentes". Los modelos de lenguaje grandes (LLM) que impulsan a estos agentes de IA son cada vez más la primera parada para los usuarios que buscan información. Si no pueden analizar, entender y confiar en tu contenido, no existes en este nuevo ecosistema. Ser citado por una IA se está convirtiendo en el nuevo posicionamiento en la "primera página".
Esta guía no trata sobre la palabrería de "usar IA para el SEO". Es un manual técnico y práctico para fundadores y operadores que gestionan sus propios sitios web. Cubriremos los formatos de archivo específicos, las configuraciones de servidor y las estructuras de datos que los rastreadores de IA de OpenAI, Anthropic, Google y otros están buscando en este momento. Así es como sacas tus datos de tu sitio web y los metes en sus respuestas.
Por qué la preparación para agentes es el nuevo SEO
Durante dos décadas, el SEO consistió en señalar relevancia a algoritmos como el PageRank de Google. Ahora, también debemos señalar autoridad y estructura a los modelos de lenguaje. El objetivo es diferente. En lugar de solo un clic, tu objetivo es convertirte en una fuente citable en una respuesta generada. Es una vara más alta.
Si revisas los registros de tu servidor hoy, probablemente encontrarás que el tráfico de rastreadores de IA conocidos (como GPTBot, ClaudeBot y PerplexityBot) ya constituye una porción pequeña pero creciente de tu tráfico. Para muchos sitios, esto ya está en el rango del 1-3% y se espera que aumente significativamente. Esta es la fase de recopilación de datos. Los modelos están ingiriendo activamente la web para entrenar versiones futuras. Ser accesible ahora significa que eres parte de ese conocimiento fundamental.
El SEO tradicional se enfoca en la intención del usuario que lleva a un clic. La preparación para agentes se enfoca en datos legibles por máquina que permiten a una IA satisfacer la intención del usuario directamente, con tu sitio como fuente confiable. Los dos no son mutuamente excluyentes, pero requieren tácticas diferentes. Una publicación de blog optimizada para palabras clave es excelente para la Búsqueda de Google. Una página bien estructurada con un JSON-LD claro, un robots.txt permisivo y tal vez incluso un archivo `llms.txt` es lo que te hace ser citado por un agente de IA.
La especificación `llms.txt`: un manual de usuario para tu sitio
El archivo `llms.txt` es una propuesta, defendida principalmente por Anthropic (los creadores de Claude), para una forma estandarizada de dar instrucciones a los modelos de IA sobre tu sitio. Piénsalo como un `robots.txt` pero para la política de uso en lugar del acceso de rastreo. Les dice a los modelos cómo se les permite usar tu contenido en su entrenamiento y resultados.
Qué es y dónde ponerlo
Un archivo `llms.txt` es un archivo de texto sin formato colocado en el directorio `/.well-known/` de tu sitio web. La ruta completa debería ser `https://yourdomain.com/.well-known/llms.txt`.
El archivo utiliza un formato simple de `campo: valor`. Los campos clave propuestos actualmente son:
- User-Agent: Especifica a qué bot se aplican las reglas. Un `*` se aplica a todos los bots. También puedes dirigirte a bots específicos como `ClaudeBot`.
- Allow: Especifica directorios o páginas cuyo uso está explícitamente permitido para entrenar modelos generativos.
- Disallow: Especifica directorios o páginas cuyo uso para entrenamiento está prohibido.
- Allow-Citing: Un campo propuesto para permitir explícitamente que el modelo cite tu contenido.
Un ejemplo práctico de `llms.txt`
Aquí hay una configuración que permite a todos los bots usar la mayor parte del sitio para entrenamiento, prohíbe un área privada `/members/` y permite explícitamente citar desde el directorio `/articles/`.
# Default policy for all LLM agents
User-Agent: *
Disallow: /members/
Disallow: /private-data/
# Allow all bots to cite our public articles
User-Agent: *
Allow-Citing: /articles/
# Specific rules for ClaudeBot, if needed
User-Agent: ClaudeBot
Allow: /
Ventajas y desventajas de `llms.txt`
- Ventaja: Proporciona una forma clara y legible por máquina de establecer tus términos de uso. Esto es mucho mejor que enterrarlo en una página de "Términos de Servicio" legible por humanos que ningún rastreador analizará jamás.
- Ventaja: Es una mirada al futuro. Adoptarlo ahora indica que eres un editor comprometido y técnicamente competente.
- Desventaja: Todavía es una propuesta. No hay garantía de que todas las principales empresas de IA lo respeten. OpenAI, por ejemplo, actualmente se basa en `robots.txt`. Es una apuesta por un estándar futuro.
- Desventaja: Añade otro archivo de configuración que mantener. Para la mayoría de los sitios pequeños, un archivo simple y permisivo es una tarea de configurar y olvidar.
JSON-LD: alimentando a las máquinas con datos estructurados
Si quieres que una IA entienda el *significado* de tu contenido, necesitas decirle qué está viendo. ¿Es esta página un producto, un artículo o una guía de instrucciones? JSON-LD es una forma de incrustar estos datos estructurados directamente en tu HTML, utilizando el vocabulario de Schema.org.
Los agentes de IA, especialmente aquellos enfocados en compras o instrucciones paso a paso, buscan activamente estos datos. Es la diferencia entre que ellos intenten adivinar el precio de tu producto y que tú se lo digas directamente: `"price": "240"`. Deberías agregar la etiqueta de script JSON-LD dentro del `
` o `` de tu HTML. Para la mayoría de las plataformas (como WordPress con un plugin), esto se maneja por ti una vez configurado.Esquemas clave que los agentes de IA realmente usan
No intentes implementar todos los esquemas. Concéntrate en los que se corresponden con tu contenido y son más valiosos para los agentes de IA.
-
Article: Esencial para cualquier publicación de blog o artículo. Define claramente el autor, la fecha de publicación, el titular y el cuerpo. Esto ayuda a los agentes a atribuir el contenido correctamente.
<script type="application/ld+json"> { "@context": "https://schema.org", "@type": "Article", "headline": "How to Make Your Website AI-Agent Readable", "author": { "@type": "Organization", "name": "GuardLabs" }, "datePublished": "2024-05-21" } </script> -
Product: Si vendes algo, esto no es negociable. Permite a los agentes extraer nombres de productos, descripciones, precios, disponibilidad y reseñas en modelos de comparación. Así es como apareces en las consultas de "¿cuál es la mejor herramienta para X?". Nuestro propio plan de Mantenimiento Web podría marcarse de esta manera.
<script type="application/ld+json"> { "@context": "https://schema.org", "@type": "Product", "name": "Website Care Plan", "image": "https://guardlabs.online/images/care-icon.png", "description": "Annual website maintenance and support.", "offers": { "@type": "Offer", "priceCurrency": "USD", "price": "240.00" } } </script> - FAQPage: Si tienes una página de preguntas frecuentes, márcala. A los agentes de IA les encantan las preguntas frecuentes porque son pares de pregunta-respuesta preempaquetados. Esto les facilita enormemente el uso de tu contenido para responder directamente a la pregunta de un usuario.
- HowTo: Para guías paso a paso, este esquema es perfecto. Descompone el proceso en pasos discretos, que un agente puede luego reformatear y presentar a un usuario.
La principal limitación de JSON-LD es que solo es tan bueno como los datos que proporcionas. Si tu esquema está incompleto o es inexacto (por ejemplo, el precio en la página no coincide con el `price` en el JSON-LD), puede confundir a los bots o hacer que desconfíen de tu sitio.
Tarjetas MCP: una tarjeta de presentación para tu servidor
El protocolo de Página Citable Legible por Máquina (MCP, por sus siglas en inglés) es un concepto más nuevo y experimental. La idea es simple: ¿qué pasaría si, junto con tu página web legible por humanos, proporcionaras un archivo JSON simple y estructurado que contuviera toda la información citable clave? Esto es una "tarjeta" MCP.
Un agente de IA podría obtener `https://yourdomain.com/my-article.mcp.json` para obtener los datos centrales de tu artículo sin tener que analizar HTML, anuncios y menús de navegación. Esto facilita su trabajo y hace que tus datos sean más limpios.
Cuándo y cómo publicar una tarjeta MCP
No necesitas una tarjeta MCP para cada página. Es más útil para contenido citable y rico en datos, como informes, páginas de productos o guías de referencia.
Para implementarlo, creas un archivo JSON estático que sigue la especificación MCP y lo alojas en una URL predecible. Una convención común es añadir `.mcp.json` a la URL original. Luego, lo enlazas desde tu página HTML usando una etiqueta `` en el `
`:<link rel="alternate" type="application/mcp+json" href="https://yourdomain.com/path/to/page.mcp.json">
Una tarjeta MCP simple para un artículo podría verse así:
{
"spec_version": "1.0",
"title": "How to Make Your Website AI-Agent Readable",
"url": "https://guardlabs.online/articles/agent-readable-website",
"author": "GuardLabs",
"publication_date": "2024-05-21",
"summary": "A technical guide on using llms.txt, JSON-LD, and MCP cards to make websites understandable to AI agents.",
"key_points": [
"AI crawlers represent a growing source of traffic and influence.",
"llms.txt is a proposed standard for declaring usage rights.",
"JSON-LD provides essential structured data for context.",
"robots.txt remains the primary tool for crawl access control."
]
}
El principal inconveniente es su novedad. A finales de 2024, ningún agente de IA importante se ha comprometido públicamente a usar MCP. Implementarlo es una apuesta a futuro en un estándar potencial. Es una actividad de bajo esfuerzo y alta recompensa potencial para los propietarios de sitios con inclinaciones técnicas.
`robots.txt` para IA: el portero de tus datos
El archivo `robots.txt` es tu herramienta más directa y ampliamente respetada para controlar qué bots pueden acceder a tu sitio. Todas las principales empresas de IA han introducido rastreadores específicos y, por ahora, respetan las directivas de `robots.txt`.
Tu elección es simple: permitir o no permitir. Si quieres ser citado, debes permitírselos. No permitir el acceso a un bot es una forma segura de ser excluido de la base de conocimientos de su modelo.
Una tabla de referencia de bots de IA comunes
Aquí están los agentes de usuario para los rastreadores de IA más comunes y lo que hacen. Puedes usarlos en tu archivo `robots.txt` para establecer permisos.
| User Agent | Empresa | Propósito | ¿Respeta `robots.txt`? |
|---|---|---|---|
GPTBot |
OpenAI | Rastrea datos web para mejorar futuros modelos de ChatGPT. | Sí |
ClaudeBot |
Anthropic | Usado para entrenar modelos de Claude. | Sí |
PerplexityBot |
Perplexity AI | Rastrea la web para encontrar respuestas para el motor de búsqueda conversacional de Perplexity. | Sí |
Google-Extended |
Un rastreador separado que Google usa para mejorar Bard/Gemini. Optar por no participar aquí no afecta la Búsqueda de Google. | Sí | |
CCBot |
Common Crawl | No es una empresa, sino una organización sin fines de lucro que rastrea y archiva la web. Sus datos son ampliamente utilizados para entrenar muchos LLM de código abierto y comerciales. | Sí |
Ejemplo de `robots.txt` para la preparación para IA
Una configuración predeterminada sensata para la mayoría de las empresas es permitir estos bots. Si no tienes un archivo `robots.txt`, crea uno en la raíz de tu dominio. Aquí hay un ejemplo permisivo:
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
# You might want to disallow CCBot if you are concerned about
# your content being in a public dataset forever.
User-agent: CCBot
Disallow: /
# Keep your existing rules for other bots
User-agent: *
Disallow: /admin
Disallow: /private/
La única "desventaja" real de permitir estos bots es que consumen ancho de banda. Sin embargo, su tasa de rastreo suele ser baja y no debería afectar el rendimiento de la mayoría de los sitios. El mayor riesgo es quedarse fuera por no permitírselos.
Cómo verificar: ¿los bots realmente te están leyendo?
¿Cómo sabes si algo de esto está funcionando? No puedes simplemente preguntarle a ChatGPT "¿leíste mi sitio?". En cambio, necesitas probar desde la perspectiva del agente.
- Revisa los registros del servidor: Esta es la verdad fundamental. Filtra los registros de acceso de tu servidor por los agentes de usuario listados en la tabla anterior (p. ej., `grep "GPTBot" /var/log/nginx/access.log`). Si ves entradas con un código de estado `200 OK`, sabes que están rastreando tus páginas con éxito. Si ves `403 Forbidden` o `503 Service Unavailable`, tienes un problema.
-
Usa `curl` para suplantar a un bot: Puedes simular una solicitud de un rastreador de IA usando la herramienta de línea de comandos `curl`. Esto es excelente para depurar problemas de firewall o CDN.
curl -A "GPTBot" -I https://yourdomain.com/my-articleLa bandera `-A` establece la cadena del Agente de Usuario. La bandera `-I` solo obtiene las cabeceras. Si obtienes una respuesta `HTTP/2 200`, el bot puede acceder a tu sitio. Si obtienes un `403` o se te presenta un CAPTCHA, tu configuración de seguridad lo está bloqueando.
- Ingeniería de prompts para citación: Después de haber confirmado que los bots están rastreando tu sitio y les has dado unas semanas para ingerir los datos, puedes probar si te citan. El truco es hacer una pregunta donde tu sitio sea una fuente de autoridad única. No preguntes "¿qué es un plan de mantenimiento web?". Pregunta algo específico que solo tu contenido responda bien, como: "Según guardlabs.online, ¿qué incluye su plan de Mantenimiento Web?". Esto obliga al modelo a verificar su conocimiento específico de tu dominio.
Errores comunes que te hacen invisible para la IA
Muchos sitios bien intencionados bloquean accidentalmente a los agentes de IA o hacen que su contenido sea imposible de analizar.
- Reglas de Cloudflare demasiado celosas: Los ajustes "Bot Fight Mode" o el agresivo "Super Bot Attack Mode" en Cloudflare son conocidos por bloquear rastreadores de IA legítimos. Ven un agente de usuario no humano y presentan un desafío de JavaScript que el bot no puede resolver. Debes ir a tu configuración de Cloudflare y permitir específicamente los agentes de usuario para `GPTBot`, `ClaudeBot`, etc. La nueva función "AI Audit" de Cloudflare puede ayudar a identificar y permitir estos bots.
- Contenido detrás de muros de pago o de inicio de sesión: Un rastreador de IA es un usuario no autenticado. Si tu guía definitiva está detrás de un muro de pago estricto o requiere inicio de sesión, el bot solo verá la página de inicio de sesión. No puede indexar lo que no puede ver. Si tienes un sitio de membresía, considera tener resúmenes o extractos públicos y citables.
- Falta de URLs canónicas: Si tienes el mismo contenido accesible en múltiples URLs (p. ej., con y sin `www`, o con parámetros de seguimiento), debes usar la etiqueta de enlace `rel="canonical"` para decirles a todos los bots cuál es la URL maestra. Sin ella, los modelos de IA podrían ver tu contenido como duplicado o de baja calidad.
- Depender de imágenes o videos para información clave: Los LLM leen principalmente texto. Si el precio, las especificaciones o las características clave de tu producto solo están disponibles en una imagen o un video, el rastreador de IA los pasará por alto. Toda la información crítica debe existir como texto HTML sin formato en la página.
Hacer que tu sitio sea legible para agentes no es una solución única; es una nueva capa de mantenimiento web. Requiere un cambio de mentalidad, de solo complacer a los visitantes humanos y a las arañas de los motores de búsqueda a también acomodar a los modelos de aprendizaje automático. Los sitios que hagan este trabajo ahora se convertirán en las fuentes confiables y citables para la próxima generación de búsqueda y descubrimiento de información.
Si has revisado esta guía y sientes que es más de lo que quieres gestionar por tu cuenta, este es el tipo de auditoría técnica profunda que realizamos. Nuestra auditoría de Sitio Preparado para Agentes es un escaneo completo de preparación que cubre todo lo mencionado aquí, desde la configuración de `robots.txt` hasta la validación de JSON-LD y las reglas de firewall, para asegurar que tu sitio esté posicionado para ser una fuente de verdad para los agentes de IA.
¿Quieres que ChatGPT y Claude citen tu sitio, en lugar de omitirlo?
La auditoría Agent-Ready de GuardLabs analiza llms.txt, tarjetas MCP, cobertura de JSON-LD, robots.txt para 6 crawlers de IA y te da una lista de correcciones priorizadas. Desde $79. Ver informe de muestra →