
El scraping de datos en internet se ha convertido en un tema central, tanto para el avance de la inteligencia artificial como para la protección de los derechos de los editores de contenidos. Las herramientas automáticas que rastrean y recopilan información en la web cumplen funciones esenciales, como nutrir motores de búsqueda o contribuir a la preservación digital, pero su uso masivo por parte de empresas de IA está generando nuevos desafíos.
En respuesta a estos retos, proveedores clave de infraestructura online han comenzado a modificar sus políticas y servicios. Entre ellos, Cloudflare ha implementado cambios que buscan redefinir la forma en que los robots automatizados pueden interactuar con los sitios web.
Cloudflare refuerza las medidas contra el scraping de IA
En 2024, Cloudflare introdujo servicios que permitían a sus clientes bloquear el acceso de los scrapers de IA a sus páginas web. Este año, la empresa avanzó con una configuración predeterminada que impide el rastreo de robots de IA y anunció un sistema denominado Pay Per Crawl, en el que los clientes pueden exigir una compensación a las empresas de inteligencia artificial por rastrear y utilizar su contenido.

“Esto podría cambiar radicalmente la dinámica de poder. Hasta ahora, las empresas de IA no tenían que pagar por las licencias de los contenidos, porque sabían que podían apropiarse de ellos sin consecuencias”, afirma Nicholas Thompson, CEO de Atlantic, a WIRED.
La decisión de bloquear por defecto los rastreadores de IA afecta a millones de clientes de Cloudflare, además de quienes ya habían adoptado controles previos. Según señaló Will Allen, responsable de control de IA, privacidad y productos de medios de Cloudflare, la plataforma emplea sistemas de identificación basados en el comportamiento, huellas digitales y aprendizaje automático, con el objetivo de distinguir a los robots de IA de otros bots considerados “buenos”.
Resistencia de las empresas de IA
El Protocolo de Exclusión de Robots (robots.txt) sirve tradicionalmente como barrera para limitar el acceso de estos programas automatizados, aunque su cumplimiento no es obligatorio ni está respaldado por la ley. Danielle Coffey, presidenta y CEO de News Media Alliance, sostiene que “Robots.txt es ignorado”.

Un estudio de la empresa Tollbit reveló que durante marzo de 2025 se produjeron 26 millones de intentos de scraping que eludieron esta restricción. Esta situación evidencia la insuficiencia de las herramientas clásicas para controlar el uso de contenidos por parte de la inteligencia artificial.
El modelo Pay Per Crawl de Cloudflare, aunque en fase beta, abre la puerta a negociaciones directas entre editores y empresas de IA. Bill Gross, fundador y CEO de ProRata, consideró en ese sentido: “Creemos firmemente que todos los creadores de contenido y editores deben ser compensados cuando su contenido se utiliza en respuestas de IA”. Algunas compañías, como OpenAI, han logrado acuerdos de licencia con editores, aunque sus detalles permanecen reservados.
Perspectivas del nuevo entorno
A pesar del endurecimiento de las políticas de empresas como Cloudflare, persiste un ecosistema de tutoriales y recursos destinado a sortear los bloqueos a los bots, lo que dificulta la erradicación total del scraping no autorizado. Cloudflare destaca que el bloqueo sigue siendo opcional y depende de cada usuario, puntualizando, según Will Allen, que “todo el bloqueo es totalmente opcional y queda a discreción de cada usuario”.
Con el fortalecimiento de las barreras técnicas, y la posible generalización de modelos de pago por el uso de contenido, el escenario frente al scraping de datos para inteligencia artificial continúa en transformación y obligará a nuevos equilibrios entre editores, proveedores de infraestructura y desarrolladores de IA.

¿Qué es Cloudflare?
Cloudflare es una empresa especializada en servicios de infraestructura y seguridad para Internet. Proporciona soluciones que permiten mejorar la velocidad, disponibilidad y protección de sitios web frente a amenazas externas, como ataques de denegación de servicio (DDoS), intentos de hackeo y vulnerabilidades en el tráfico web.
A través de su red de servidores distribuidos globalmente, Cloudflare actúa como intermediario entre los usuarios y los servidores de origen, filtrando el tráfico malicioso y optimizando la entrega de contenidos.
Además de las funciones de seguridad, Cloudflare ofrece herramientas de gestión avanzada para administradores de sitios web, como la optimización del rendimiento, la protección contra bots automatizados y servicios de firewall. Su tecnología permite a millones de páginas web, tiendas online y aplicaciones trabajar de manera más estable, rápida y segura.
Últimas Noticias
ChatGPT guía a una mujer al premio de Powerball y ella transforma su suerte en ayuda para familias
Carrie Edwards acertó cuatro de los cinco números de la lotería, además de la bola roja, lo que le permitió obtener el gran botín

OpenAI afirma que GPT-5 iguala a los humanos en el 40% de trabajos
Se solicitó a profesionales experimentados que compararan informes generados por modelos de IA con los elaborados por otros expertos humanos

Cómo se está usando ChatGPT para buscar dinero y mejorar las finanzas personales
Las experiencias con chatbots suelen estar motivadas por la necesidad de respuestas inmediatas y sin juicios, así como por el deseo de optimizar los recursos propios

Intel busca un acuerdo con Apple: un panorama post lanzamiento del iPhone 17
Representantes de Intel han entablado conversaciones con Apple para explorar una inversión que impulse al fabricante estadounidense de microprocesadores

Conoce los videojuegos más populares del momento en PlayStation Plus
Esta modalidad de juegos en la nube permite a los usuarios jugar varios títulos al mismo tiempo sin tener que comprarlos en físico
