Conteúdo protegido: empresas barram rastreadores de IA massivos

Nos últimos meses de 2025, um movimento significativo tem tomado forma entre empresas de hospedagem e infraestrutura na internet: a adoção maciça de bloqueios automáticos a rastreadores de inteligência artificial (IA). A motivação principal é equilibrar o uso indiscriminado do conteúdo disponível na web por esses bots com os custos crescentes para os sites, reafirmando que a internet ideal precisa beneficiar tanto a inovação quanto seus criadores.

representação artística do bloqueio dos servidores

De acordo com reportagem do The Washington Post, plataformas como Wikipedia, Reddit, institutos acadêmicos e sites de notícias foram abastecidos por rastreadores de IA a níveis  tão altos que chegaram a sobrecarregar seus servidores e elevar custos de tráfego sem gerar retorno real na forma de visitantes humanos. A Wikimedia Foundation, por exemplo, alertou que um surto desses bots provocou um aumento abrupto no consumo de banda em sua infraestrutura ― uma situação que afetou a disponibilidade do site e exigiu ações corretivas.

Em resposta ao problema, a gigante de infraestrutura Cloudflare, que atualmente atende cerca de 20% dos domínios da internet, implementou uma política de bloqueio automático de rastreadores de IA para novos clientes e disponibilizou ferramentas avançadas para usuários já cadastrados. A empresa chamou isso de marco em prol de um “modelo de permissão” para acesso a dados, com opção de exigir pagamento por acesso (Pay Per Crawl) e identificação clara do agente responsável pelo bot.

A solução de Cloudflare combina técnicas de análise comportamental e aprendizado de máquina para diferenciar bots legítimos (como Googlebot) dos que visam treinar modelos generativos. Segundo o CEO Matthew Prince, essas medidas são essenciais para manter os criadores de conteúdo protegidos e viabilizar uma monetização justa. Já empresas como Gannett, The Atlantic, Associated Press, Conde Nast, Stack Overflow, Reddit e Pinterest apoiam a iniciativa, visto que ela protege direitos de propriedade intelectual e reconhece o valor do conteúdo original.

O receio dos sites é justificado: um relatório da HostingAdvice relatou casos de aumentos de até US$ 5 000 em cobranças diárias de largura de banda simplesmente por causa de bots de IA como GPTBot (OpenAI) e ClaudeBot (Anthropic). Um administrador de fórum no Reddit confidenciou que precisou ativar o modo anti-bot da Cloudflare para conter cerca de 700 000 requisições por dia vindas desses rastreadores, o que restaurou o desempenho de seus sistemas .

Além do bloqueio direto, empresas estão adotando ferramentas como a AI Labyrinth, da própria Cloudflare, que insere páginas falsas e decoy para prender bots ― técnica que consome recursos do software rastreador e expõe seus padrões, sem afetar usuários humanos. Outros players, como Fastly e Akamai, também expandiram suas ofertas de Bot Management com IA, adicionando sinalizadores que identificam crawlers específicos de IA para permitir ou impedir o acesso.

Um ponto crucial é que os tradicionais arquivos robots.txt, utilizados para indicar que rastreadores não devem acessar certas páginas, tornaram-se obsoletos, pois um número expressivo de bots ignora essas diretrizes. A startup Originality AI identificou que, em 2023, 88% dos maiores sites jornalísticos já bloqueavam bots como GPTBot, mas muitos rastreadores continuam burlando as regras implantando novos domínios ou mudando seu “user-agent”.

Apesar do avanço — que inclui análise de dados, controle de agentes, estratégias baseada em honeypots e exigência de licenciamento —, especialistas como Rich Skrenta, da Common Crawl Foundation, defendem que bloquear bots drasticamente pode ser uma solução de curto prazo e que é necessário estruturar um modelo colaborativo, no qual criadores e plataformas cheguem a acordos comerciais claros.

Nos bastidores, a batalha ganha contornos jurídicos: grandes veículos, como The New York Times e Reddit, ameaçam recorrer à justiça argumentando que empresas como OpenAI estariam infringindo direitos autorais ao extrair textos sem autorização — já há licenciamento parcial firmados, mas o impasse persiste.

Em síntese, a tendência é clara: provedores de hospedagem e infraestrutura estão menos tolerantes frente à extração massiva de dados por IA. O movimento é sustentado por um conjunto de ferramentas técnicas inovadoras, respaldadas por importantes nomes da mídia e pressionadas por impactos financeiros concretos. Ainda que essa tendência proteja o ecossistema editorial e a viabilidade técnica da internet, ela também poderia impulsionar novos modelos de negócios, em que o acesso aos dados seja concedido mediante acordo ou pagamento, estabelecendo uma economia digital regulada. O desafio agora é equilibrar liberdade na web, inovação em IA e sustentabilidade dos criadores.