Conteúdo editorial apoiado por

Como o domínio do Google tem limitado escolha de sites quanto à coleta de dados em IA

Monopólio da empresa no mercado de buscas tem sido questionado, mas sites ainda não sabem o que fazer para restringir uso de dados

Bloomberg

Publicidade

(Bloomberg) – As respostas de inteligência artificial que o Google agora coloca no topo dos resultados de algumas buscas têm um custo alto para os sites que os usuários visitariam de outra forma. Mas muitos proprietários de sites dizem que não podem se dar ao luxo de bloquear a IA do Google de resumir seu conteúdo.

Isso porque a ferramenta do Google que filtra o conteúdo da web para gerar suas respostas de IA é a mesma que rastreia as páginas da web para os resultados de busca, segundo os editores. Bloquear a Alphabet (GOOGL), dona do Google, da mesma forma que alguns de seus concorrentes de IA foram bloqueados, também prejudicaria a capacidade de um site ser descoberto online.

O domínio do Google nas buscas — que um tribunal federal considerou na semana passada ser um monopólio ilegal — está dando à empresa uma vantagem decisiva nas guerras de IA que estão surgindo, algo que startups de busca e editores consideram injusto à medida que a indústria toma forma. O dilema é particularmente agudo para os editores, que enfrentam a escolha entre oferecer seu conteúdo para uso por modelos de IA que podem tornar seus sites obsoletos ou desaparecer das buscas do Google, uma das principais fontes de tráfego.

GRATUITO

CURSO DE DIVIDENDOS

Descubra o passo a passo para viver de dividendos e ter uma renda mensal; começando já nas próximas semanas

“Isso se torna uma crise existencial para essas empresas,” disse Joe Ragazzo, editor do site de notícias Talking Points Memo. “São duas opções ruins. Você sai e morre imediatamente, ou se associa a eles e provavelmente morre lentamente, porque eventualmente eles não vão mais precisar de você.”

O Google disse que os Resumos de IA — exibidos no topo das buscas do Google — fazem parte de seu compromisso de longa data de oferecer informações de alta qualidade e aumentar as oportunidades para editores e outras empresas. “Todos os dias, o Google envia bilhões de cliques para sites em toda a web, e pretendemos que essa troca de valor estabelecida há muito tempo com os sites continue,” disse um porta-voz do Google em um comunicado. “Com os Resumos de IA, as pessoas acham a busca mais útil e voltam a buscar mais, criando novas oportunidades para o conteúdo ser descoberto.”

A hegemonia do Google

Desde seus primeiros dias, o Google tem usado um software conhecido como Googlebot para visitar ou “rastrear” (“crawl”, em inglês, como especialistas costumam chamar também no Brasil) milhões de sites, construindo um repositório detalhado da internet global. Esse índice tem sido uma barreira assustadora para empresas que tentam construir motores de busca rivais ao longo dos anos — mesmo aquelas com bolsos fundos, como a Microsoft.

Continua depois da publicidade

A ascensão da IA generativa desencadeou uma nova onda de startups que buscam oferecer produtos de busca nos quais modelos de IA fornecem respostas sucintas às perguntas dos usuários. A popularidade dos chatbots gerou pânico dentro do Google sobre o futuro de seu motor de busca, que por tanto tempo parecia invencível. Mas antes que essas startups possam realmente ameaçar o negócio do gigante das buscas, elas precisam rastrear a web. E isso não é uma tarefa fácil.

Ser rastreado custa dinheiro, poder de computação e armazenamento para os proprietários de sites, então muitos editores incluem um arquivo que estabelece regras para bots visitando seus sites. As empresas que recebem mais liberdade geralmente são o Google e o Bing da Microsoft, que podem direcionar tráfego para os sites por meio de seus motores de busca.

Mas as startups de busca não podem prometer tal tráfego antes de ganharem tração — o que é uma das razões pelas quais as novas empresas começaram a fazer acordos para pagar aos editores pelo licenciamento de conteúdo, disse Alex Rosenberg, CEO da Tako, uma startup de IA.

Continua depois da publicidade

“Agora você tem um monte de empresas de tecnologia que estão pagando pelo conteúdo, elas estão pagando pelo acesso a isso porque precisam disso para poder competir de forma séria,” disse Rosenberg. “Enquanto isso, para o Google, eles realmente não precisam fazer isso.”

Sem espaço para negociação

Em meio a uma onda de acordos entre empresas de mídia e startups de IA, o Google tem sido uma notável exceção. Fora um acordo relatado de US$ 60 milhões com a Reddit, o Google sinalizou aos editores a portas fechadas que não está interessado em negociar, segundo duas pessoas com conhecimento do assunto, que pediram para não ser identificadas porque a informação é privada.

As empresas de mídia têm pouca influência nessas conversas. No início deste ano, o Google lançou os Resumos de IA, nos quais a empresa usa IA para fornecer respostas sucintas a algumas perguntas dos usuários no topo da página de busca. Os editores ficaram imediatamente preocupados com o impacto que as respostas poderiam ter em seu tráfego, mas não tinham uma maneira clara de abordar esses medos.

Continua depois da publicidade

O Google usa um rastreador separado para alguns produtos de IA, como seu chatbot Gemini. Mas seu rastreador principal, o Googlebot, serve tanto os Resumos de IA quanto a busca do Google. Um porta-voz da empresa disse que o Googlebot governa os Resumos de IA porque a IA e o motor de busca da empresa estão profundamente interligados. O porta-voz acrescentou que a página de resultados de busca mostra informações em uma variedade de formatos, incluindo imagens e gráficos. O Google também disse que os editores podem bloquear páginas específicas ou partes de páginas de aparecerem nos Resumos de IA nos resultados de busca — mas isso também provavelmente impediria que esses trechos aparecessem em todos os outros recursos de busca do Google, incluindo listagens de links da web.

Muitos editores, que frequentemente dependem dos motores de busca para pelo menos metade de seu tráfego, não estão dispostos a correr o risco de minimizar seu alcance.

A posição do Google “minimiza o risco significativo que isso representa para os criadores de conteúdo, particularmente aqueles que dependem da visibilidade nas buscas para seu sustento,” disse Marc McCollum, que lidera a inovação na Raptive, que representa editores e influenciadores. “Ao optar por sair, os criadores podem inadvertidamente reduzir sua presença geral nas buscas, o que poderia prejudicar sua capacidade de alcançar audiências e gerar receita.”

Continua depois da publicidade

Kyle Wiens, CEO da iFixit, um site que publica guias de reparo online gratuitos para eletrônicos de consumo, disse que a relação do site com o Google é “muito mais tênue” do que com outras empresas de IA. “Eu posso bloquear o ClaudeBot de nos indexar sem prejudicar nosso negócio,” Wiens escreveu em um e-mail, referindo-se ao bot da startup de IA generativa Anthropic. “Mas se eu bloquear o Googlebot, perdemos tráfego e clientes.”

Acordo com Reddit

O acordo do Google com o Reddit, onde milhões de usuários participam de debates acalorados sobre tópicos de nicho, oferece à empresa um tesouro de informações para modelos de IA. O acordo coincidiu com mudanças que o Google fez que aumentaram a presença de resultados de fóruns como o Reddit nos resultados de busca, gerando enormes ganhos de tráfego para o site de mídia social. Um porta-voz do Reddit disse que melhorias na qualidade e velocidade do produto também contribuíram para o crescimento do tráfego.

A startup de busca Perplexity está em negociações com o Reddit sobre o licenciamento de conteúdo, mas o acordo do Google estabeleceu uma taxa que é difícil para uma startup igualar, segundo uma pessoa familiarizada com o assunto. O Google disse que o acordo com o Reddit é uma parceria de longo alcance que cobre mais do que apenas dados de treinamento. O porta-voz do Reddit se recusou a comentar sobre discussões comerciais. A Perplexity se recusou a comentar.

Outras startups de busca concluíram que os dados estão simplesmente fora de alcance.

“Precisaríamos de 20 anos de nossa receita atual apenas para pagar o Reddit,” disse Vladimir Prelovac, fundador da Kagi, uma startup de busca. “Isso não é nem uma possibilidade que estou considerando.”

Pequenas startups não estão sozinhas em suas lutas. A OpenAI lançou recentemente o SearchGPT, uma versão de teste de seu chatbot extremamente popular adaptado para buscas. No entanto, sites populares, incluindo Amazon, Goodreads e Uniqlo, bloquearam o rastreador GPT de seus sites, de acordo com documentação pública, potencialmente causando problemas para as ambições da OpenAI em buscas. A OpenAI disse que sites podem aparecer em seus resultados de busca mesmo que escolham excluir seu conteúdo do treinamento de IA.

Prelovac disse que pelo menos metade dos custos da Kagi vão para rastreamento e outras fontes de dados de busca. Um índice detalhado da web é fundamental para um motor de busca, para oferecer aos usuários uma visão detalhada do conteúdo da internet. No entanto, para empresas que buscam responder diretamente às perguntas dos usuários usando IA, um modelo popularizado pelo ChatGPT, os dados assumem outro nível de importância, disse Prelovac.

“Modelos de IA generativa por si só não são muito inteligentes,” disse Prelovac. “Para ter qualquer tipo de saída de IA generativa de alta qualidade, você precisa ter acesso ao mesmo índice de busca.”

Como chegamos aqui

A presença disseminada dos arquivos robots.txt, que estabelecem diretrizes para rastreamento, força as startups a tomar decisões complexas, disse Richard Socher, fundador da startup de busca You.com. Os arquivos não foram considerados legalmente vinculativos, então as empresas podem rastrear dados públicos desde que não sejam necessárias credenciais de login ou de assinante, disse Socher.

“Quando rastreamos, tentamos não sobrecarregar nenhum site,” ele disse. “Qualquer site que tenha um arquivo robots.txt que permita apenas o Google rastrear e ninguém mais essencialmente apoia um monopólio de busca do Google.”

A Neeva, uma startup de busca fundada por ex-googlers que foi comprada pela Snowflake no ano passado, defendeu a “neutralidade de rastreamento” para facilitar a construção de índices de busca por startups. Na esteira de uma decisão judicial histórica que considerou que o Google monopolizou o mercado de buscas online, o Departamento de Justiça está considerando buscar remédios, incluindo forçar o gigante das buscas a compartilhar mais dados com concorrentes e até mesmo dividir a empresa, informou a Bloomberg. Uma proposta que atraiu considerável atenção é exigir que o Google compartilhe os dados que coleta por meio do Googlebot, ou abra seu famoso índice de busca para seus rivais. A Lei de Mercados Digitais da União Europeia já exige que o Google compartilhe alguns dados de consultas de busca.

Para Wiens, o CEO da iFixit, a vantagem que o Google tem sobre outras empresas de IA por causa de seu império de buscas está no cerne das questões antitruste da empresa. “Separar a busca do Google de seu trabalho de IA,” ele disse, “resolveria os conflitos.”

O motor de busca DuckDuckGo disse que as mudanças tecnológicas em andamento nas buscas tornam “o índice do Google relacionado a preocupações antitruste ainda mais problemático.”

“Os índices de busca são extremamente importantes na era da IA generativa,” disse Kamyl Bazbaz, vice-presidente sênior de relações públicas do DuckDuckGo.

Independentemente do resultado do caso antitruste, as mudanças em andamento no cenário de buscas destacam a importância para os editores de controlar seu próprio destino e não se tornarem excessivamente dependentes de qualquer plataforma tecnológica — incluindo o Google, disse Ragazzo do TPM.

“Acreditamos que você deve formar relacionamentos reais com os leitores,” disse Ragazzo, “e é assim que você constrói uma publicação que pode resistir a diferentes eras.”

© 2024 Bloomberg L.P.