A corrida para bloquear os bots de limpeza da OpenAI está desacelerando

É muito cedo para dizer como será o número de transações entre empresas de IA e editores. No entanto, a OpenAI já obteve uma vitória clara: seus webmasters não estão sendo bloqueados pelos principais meios de comunicação no ritmo que costumavam ser.

O desenvolvimento generativo da IA ​​criou uma corrida ao ouro pelos dados – e uma subsequente corrida à protecção de dados (pelo menos para a maioria dos websites de notícias), onde os editores tentaram bloquear os navegadores de IA e o seu trabalho sem consentimento para treinar dados para conversão. Por exemplo, quando a Apple introduziu um novo agente de IA neste verão, vários dos principais meios de comunicação estavam usando o Protocolo de Exclusão de Robôs, ou robots.txt, um arquivo que permite aos webmasters controlar os bots. . Há tantos novos bots de IA em cena que pode parecer que estamos jogando um jogo para acompanhar.

O GPTBot da OpenAI tem mais reconhecimento de nome e também é mais bloqueado do que concorrentes como o Google AI. O número de sites de mídia de alto perfil que usam robots.txt para “proibir” o GPTBot da OpenAI aumentou dramaticamente desde seu lançamento em agosto de 2023 até o outono, e depois aumentou de forma constante (mas gradual) de novembro de 2023 a abril de 2024, de acordo com uma análise de 1.000 meios de comunicação populares de uma startup de análise de IA com sede em Ontário IA original. No seu auge, atingia pouco mais de um terço dos sites; agora diminuiu para quase um quarto. Entre um grupo menor de meios de comunicação populares, a taxa de bloqueio ainda está acima de 50%, mas caiu em relação aos máximos de quase 90% do início deste ano.

Mas em maio passado, depois que Dottash Meredith anunciou um acordo de licenciamento com a OpenAI, esse número caiu significativamente. Então, novamente no final de maio, quando o Vox entrou em colapso anunciado Seu próprio acordo – e novamente em agosto deste ano, quando a empresa-mãe da WIRED, Condé Nast, fechou um acordo. A tendência de aumento das execuções hipotecárias parece ter terminado, pelo menos por enquanto.

Essas unhas têm um significado claro. Quando as empresas firmam parcerias e permitem a utilização de seus dados, elas não são mais incentivadas a bloqueá-los, portanto atualizarão seus arquivos robots.txt para permitir buscas; obtenha negócios suficientes e a porcentagem geral de sites que bloqueiam rastreadores quase certamente cairá. Alguns veículos lançaram navegadores OpenAI no mesmo dia em que anunciaram o acordo, como o The Atlantic. Outros demoraram de alguns dias a algumas semanas, como a Vox, que anunciou sua parceria no final de maio, mas reabriu o GPTBot em sua propriedade no final de junho.

Robots.txt não é juridicamente vinculativo, mas há muito serve como um padrão que rege o comportamento do navegador da web. Durante a maior parte da existência da Internet, esperava-se que as pessoas que trabalhavam em páginas da Web seguissem umas às outras até o arquivo. Quando uma investigação da WIRED no início deste verão descobriu que a startup de IA Perplexity estava potencialmente optando por ignorar os comandos robots.txt, a divisão de nuvem da Amazon lançou uma investigação para saber se o Perplexity violava suas regras. Ignorar o robots.txt não é uma boa ideia, o que provavelmente explica por que tantas empresas populares de IA, incluindo a OpenAI—eles expressam abertamente que é usado para identificar o que eles estão rastreando. O CEO original da AI, John Gillham, acredita que isso dá urgência adicional aos esforços da OpenAI para fechar negócios. “É claro que a visão da OpenAI está sendo bloqueada como uma ameaça às suas ambições futuras”, diz Gillham.

Fonte