Cloudflare bloquea rastreadores de IA por defecto y propone cobrar por el acceso a contenido

En 2024, Cloudflare introdujo servicios que permitían a sus clientes bloquear el acceso de los scrapers de IA a sus páginas web. Este año, la empresa avanzó con una configuración predeterminada que impide el rastreo de robots de IA

Guardar
La decisión de bloquear por
La decisión de bloquear por defecto los rastreadores de IA afecta a millones de clientes de Cloudflare. (Composición Infobae: ed.team / itmastersmag.com)

El scraping de datos en internet se ha convertido en un tema central, tanto para el avance de la inteligencia artificial como para la protección de los derechos de los editores de contenidos. Las herramientas automáticas que rastrean y recopilan información en la web cumplen funciones esenciales, como nutrir motores de búsqueda o contribuir a la preservación digital, pero su uso masivo por parte de empresas de IA está generando nuevos desafíos.

En respuesta a estos retos, proveedores clave de infraestructura online han comenzado a modificar sus políticas y servicios. Entre ellos, Cloudflare ha implementado cambios que buscan redefinir la forma en que los robots automatizados pueden interactuar con los sitios web.

Cloudflare refuerza las medidas contra el scraping de IA

En 2024, Cloudflare introdujo servicios que permitían a sus clientes bloquear el acceso de los scrapers de IA a sus páginas web. Este año, la empresa avanzó con una configuración predeterminada que impide el rastreo de robots de IA y anunció un sistema denominado Pay Per Crawl, en el que los clientes pueden exigir una compensación a las empresas de inteligencia artificial por rastrear y utilizar su contenido.

A pesar del endurecimiento de
A pesar del endurecimiento de las políticas de empresas como Cloudflare, persiste un ecosistema de tutoriales y recursos destinado a sortear los bloqueos a los bots. (CLOUDFLARE)

“Esto podría cambiar radicalmente la dinámica de poder. Hasta ahora, las empresas de IA no tenían que pagar por las licencias de los contenidos, porque sabían que podían apropiarse de ellos sin consecuencias”, afirma Nicholas Thompson, CEO de Atlantic, a WIRED.

La decisión de bloquear por defecto los rastreadores de IA afecta a millones de clientes de Cloudflare, además de quienes ya habían adoptado controles previos. Según señaló Will Allen, responsable de control de IA, privacidad y productos de medios de Cloudflare, la plataforma emplea sistemas de identificación basados en el comportamiento, huellas digitales y aprendizaje automático, con el objetivo de distinguir a los robots de IA de otros bots considerados “buenos”.

Resistencia de las empresas de IA

El Protocolo de Exclusión de Robots (robots.txt) sirve tradicionalmente como barrera para limitar el acceso de estos programas automatizados, aunque su cumplimiento no es obligatorio ni está respaldado por la ley. Danielle Coffey, presidenta y CEO de News Media Alliance, sostiene que “Robots.txt es ignorado”.

El scraping de datos en
El scraping de datos en internet se ha convertido en un tema central, tanto para el avance de la inteligencia artificial como para la protección de los derechos de los editores de contenidos. (techfunnel.com)

Un estudio de la empresa Tollbit reveló que durante marzo de 2025 se produjeron 26 millones de intentos de scraping que eludieron esta restricción. Esta situación evidencia la insuficiencia de las herramientas clásicas para controlar el uso de contenidos por parte de la inteligencia artificial.

El modelo Pay Per Crawl de Cloudflare, aunque en fase beta, abre la puerta a negociaciones directas entre editores y empresas de IA. Bill Gross, fundador y CEO de ProRata, consideró en ese sentido: “Creemos firmemente que todos los creadores de contenido y editores deben ser compensados cuando su contenido se utiliza en respuestas de IA”. Algunas compañías, como OpenAI, han logrado acuerdos de licencia con editores, aunque sus detalles permanecen reservados.

Perspectivas del nuevo entorno

A pesar del endurecimiento de las políticas de empresas como Cloudflare, persiste un ecosistema de tutoriales y recursos destinado a sortear los bloqueos a los bots, lo que dificulta la erradicación total del scraping no autorizado. Cloudflare destaca que el bloqueo sigue siendo opcional y depende de cada usuario, puntualizando, según Will Allen, que “todo el bloqueo es totalmente opcional y queda a discreción de cada usuario”.

Con el fortalecimiento de las barreras técnicas, y la posible generalización de modelos de pago por el uso de contenido, el escenario frente al scraping de datos para inteligencia artificial continúa en transformación y obligará a nuevos equilibrios entre editores, proveedores de infraestructura y desarrolladores de IA.

Cloudflare ofrece herramientas de gestión
Cloudflare ofrece herramientas de gestión avanzada para administradores de sitios web. REUTERS/Yves Herman/File Photo

¿Qué es Cloudflare?

Cloudflare es una empresa especializada en servicios de infraestructura y seguridad para Internet. Proporciona soluciones que permiten mejorar la velocidad, disponibilidad y protección de sitios web frente a amenazas externas, como ataques de denegación de servicio (DDoS), intentos de hackeo y vulnerabilidades en el tráfico web.

A través de su red de servidores distribuidos globalmente, Cloudflare actúa como intermediario entre los usuarios y los servidores de origen, filtrando el tráfico malicioso y optimizando la entrega de contenidos.

Además de las funciones de seguridad, Cloudflare ofrece herramientas de gestión avanzada para administradores de sitios web, como la optimización del rendimiento, la protección contra bots automatizados y servicios de firewall. Su tecnología permite a millones de páginas web, tiendas online y aplicaciones trabajar de manera más estable, rápida y segura.