Quien quiera hacer su sitio web accesible para los sistemas de IA debe entender qué bots llegan realmente. La respuesta es más compleja de lo que parece: Cloudflare, que procesa aproximadamente el 20% del tráfico web global, ha identificado más de 40 crawlers de IA documentados - desde grandes actores como OpenAI y Anthropic hasta sistemas poco conocidos que actúan en segundo plano. A eso se suman crawlers sigilosos que se hacen pasar por navegadores normales. Este artículo ofrece una visión general completa.
OpenAI opera tres bots diferentes con distintos propósitos. GPTBot es el crawler de entrenamiento: recopila contenidos web para el entrenamiento de futuros modelos GPT. Quien bloquea GPTBot en robots.txt evita que sus contenidos fluyan hacia futuros modelos - pero no tiene influencia directa sobre las respuestas actuales de ChatGPT. OAI-SearchBot es el crawler de búsqueda en tiempo real para ChatGPT con función de navegación y SearchGPT. Este bot es directamente relevante para la visibilidad actual en las respuestas de ChatGPT. ChatGPT-User es el agente de usuario que aparece cuando ChatGPT accede activamente a URLs durante una conversación. Anthropic (fabricante de Claude) opera ClaudeBot como crawler principal y anthropic-ai como agente de usuario secundario. Ambos recopilan datos para el entrenamiento de Claude y las funciones de recuperación de Claude.ai. Anthropic es transparente sobre sus crawlers y publica rangos de IP para su inclusión en listas blancas. Perplexity opera PerplexityBot como crawler principal y Perplexity-User como agente de navegación activo. Google-Extended es un token de producto con el que Google controla si el contenido rastreado puede utilizarse para entrenamiento y grounding de sistemas de IA de Google. Importante: Google-Extended NO influye en el ranking de búsqueda de Google ni en respuestas de b?squeda con IA. Controla exclusivamente el entrenamiento de IA. Microsoft Bingbot es el crawler clásico de Bing, que también se usa para los datos de entrenamiento de Copilot. Bytespider es el crawler de ByteDance (empresa matriz de TikTok) - quien lo desee puede bloquear explícitamente los crawlers de ByteDance sin afectar a otros sistemas de IA.
Pruébalo ya
Comprueba tu GEO Score en 60 segundos - gratis, sin cuenta. 42 factores analizados.
No todos los crawlers de IA se identifican como tales. Según datos de Cloudflare de 2025, entre el 5 y el 8% de todas las solicitudes de rastreo relacionadas con IA utilizan agentes de usuario falsos - se hacen pasar por navegadores normales (Chrome, Firefox, Safari) aunque son crawlers automatizados. El ejemplo más conocido es Perplexity. Investigaciones periodísticas (publicadas primero por Wired en 2024) han demostrado que Perplexity accede a veces a sitios web a través de un navegador Chrome headless que envía una identificación de navegador normal. Para los operadores de sitios web esto significa: las reglas de robots.txt basadas en la coincidencia de agentes de usuario son eludidas por los crawlers sigilosos. Quien quiera bloquear determinados crawlers de IA necesita reglas de bloqueo basadas en IP - pero los rangos de IP no siempre están documentados públicamente. ¿Por qué hacen esto las empresas de IA? Por razones prácticas: muchos sitios web tienen renderizado JavaScript, muros de inicio de sesión o medidas antibot que solo funcionan frente a agentes de usuario de crawlers conocidos. Un crawler basado en navegador supera estas barreras donde un crawler convencional fracasaría. Es técnicamente efectivo - pero éticamente y legalmente problemático, especialmente en relación con las condiciones de uso. Para su propia estrategia: si busca visibilidad en IA, eso es un argumento en contra de medidas agresivas de bloqueo de bots. Concéntrese en facilitar el acceso a los crawlers deseados - en lugar de dificultar el acceso a los crawlers no deseados (lo que de todos modos es difícilmente posible con los crawlers sigilosos).
Para la mayoría de los sitios web recomendamos una estrategia de permiso selectivo: permitir todos los crawlers de IA legítimos, excepto aquellos para los que existan motivos específicos de bloqueo (por ejemplo, ByteDance por razones políticas, o crawlers de entrenamiento si no desea proporcionar datos de entrenamiento). Una configuración robots.txt práctica permite explícitamente: GPTBot, OAI-SearchBot, ClaudeBot, anthropic-ai, PerplexityBot y Google-Extended con Allow: / - y bloquea bots como ByteSpider con Disallow: /. Importante: permita a los crawlers de IA acceder a páginas de productos, descripciones de servicios y páginas de contenido público. Siga bloqueando internamente: /checkout/, /account/, /admin/, /api/ y páginas de resultados de búsqueda interna - eso es en su interés (ninguna búsqueda interna en los datos de entrenamiento de IA) y en el interés de los crawlers (ninguna página de indexación de baja calidad). Un concepto más reciente que merece atención: el pago por rastreo. Cloudflare introdujo en 2025 'AI Crawl Control' - un sistema que permite a los operadores de sitios web permitir el acceso a los crawlers de IA pero cobrar una tarifa por ello. El concepto está todavía en fase inicial (la mayoría de los proveedores de IA aún no lo soportan), pero muestra la dirección: los contenidos web son datos de entrenamiento valiosos, y la cuestión de la remuneración para los creadores de contenido se resolverá en los próximos años de forma regulatoria y de mercado. Quien lleve ahora un registro cuidadoso de sus logs de crawlers tendrá una mejor base de partida para futuras negociaciones sobre modelos de licencia de contenidos.
El panorama de los crawlers de IA es más confuso de lo que la mayoría de los operadores de sitios web sospechan. Más de 40 bots documentados, más crawlers sigilosos que se hacen pasar por navegadores - esa es la realidad de 2025/2026. La mejor estrategia para la mayoría de las empresas: permitir explícitamente los crawlers de IA importantes (GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot), evaluar los logs de crawlers regularmente, proporcionar datos estructurados que hagan eficiente el rastreo, y mantenerse al tanto del desarrollo de los modelos de pago por rastreo. Quien defina hoy su estrategia de crawlers de IA estará mejor posicionado mañana.
Comprueba el GEO Score gratisMarvin Malessa
Fundador, Beconova
Fundó Beconova en 2025 en Alemania para ayudar a tiendas y prestadores de servicios a ser visibles en los motores de búsqueda de IA. Escribe sobre GEO, visibilidad IA y el futuro de la búsqueda.
Comience con Beconova y optimice su presencia en motores de busqueda IA.
Empezar ahora