A empresa controladora da TikTok, ByteDance, coleta grandes quantidades de dados da Internet com muito mais rapidez do que outros grandes rastreadores da web
A ByteDance pode estar planejando lançar seu próprio LLM e está usando intensamente seu rastreador da web “Bytespider” para coletar dados para treinar seus modelos, Fortuna relatado.
O Bytespider entrou em cena em abril e, desde então, sua taxa de uso envergonhou os web strippers da OpenAI, Google, Meta e Anthropic.
Velocidade variável da luz
Texas aprofunda os problemas legais do TikTok sobre questões de segurança infantil
Sam Crowther, CEO da Kasada, empresa especializada em gerenciamento de bots, disse ao site que a taxa de raspagem do Bytespider é 25 vezes maior que a do GPTbot da OpenAI e 3.000 vezes maior que a do ClaudeBot, que é o rastreador da Anthropic para Claude LLM. Crowther também disse que os dados de Kasada mostraram um “enorme aumento na atividade de raspagem” do Bytespider nas últimas seis semanas.
Enquanto o Bytespider consome vorazmente a web, o governo dos EUA está trabalhando para impedir que o governo chinês acesse potencialmente os dados dos usuários americanos. Em abril, o presidente Biden assinou um projeto de lei forçando a proibição do TikTok, a menos que fosse vendido pela ByteDance dentro de um ano. Dado o relógio da ByteDance nas vendas do TikTok, o senso de urgência corresponde ao tremendo ritmo de rastreamento da web – se é um LLM, um algoritmo melhor ou qualquer outra coisa, não sabemos.
Não se sabe o que a ByteDance planeja fazer com todos os dados recém-extraídos. No entanto, o TikTok lançou vários recursos baseados em IA para a plataforma. Em maio, anunciou um conjunto de ferramentas para anunciantes criarem anúncios gerados por IA e avatares gerados por IA para marcas e criadores. Há também rumores de que o TikTok está trabalhando em um mecanismo de busca interno cujos resultados serão alimentados por inteligência artificial – possivelmente usando o ChatGPT.
Tópicos
Inteligência Artificial TikTok