alguém estava treinando uma IA

O Arquivo da Internet É a grande hemeroteca da rede das redes, embora isso às vezes a leve a ter problemas. Graças a este projeto, por exemplo, podemos fazer uma viagem ao passado da web, desfrutar conteúdo de áudio e vídeo, lembre-se do uso de calculadoras científicas ou até mesmo tocar alguns sucessos retrô antigos graças à emulação. Esse tipo de serviço é uma das joias da Internet, mas nesses dias algo inédito aconteceu: o Internet Archive caiu. O que aconteceu?

Erro 502. No último domingo, 28 de maio, quem tentou acessar o serviço encontrou a mensagem “Server Error 502”. Ou o que é o mesmo: os servidores eles estavam carregando muita carga.

Uma IA gulosa. Mark Graham, responsável pela “máquina do tempo” do The Internet Archive (Wayback Machine), explicou o motivo: a culpa foi da inteligência artificial. E, mais especificamente, uma empresa não especificada que estava treinando seu modelo de IA com dados do The Internet Archive.

milhares de pedidos. Pouco depois um dos responsáveis pela plataforma, Brewster Kahle, deu mais alguns detalhes sobre o evento no blog oficial do The Internet Archive: Um conjunto de 64 máquinas virtuais hospedadas na plataforma AWS da Amazon estava lançando “dezenas de milhares de solicitações por segundo” para coletar seus arquivos OCR de domínio público.

Solução: bloquear IPs“Mesmo para os padrões da web, dezenas de milhares de solicitações por segundo é muito”, explicou Kahle, observando que isso causou uma interrupção do serviço de cerca de uma hora. Os engenheiros conseguiram resolver o problema com uma medida certeira: bloquearam o acesso aos IPs de onde vieram essas solicitações.

Segunda tentativa. A coisa não parou por aí e, após interromper essas solicitações, apareceu uma segunda rodada de 64 endereços IP que mais uma vez colocou o serviço em apuros. Novamente houve outra hora em que o serviço Internet Archive ficou inacessível e novamente eles tiveram que bloquear esses IPs.

Melhor pedir permissão. O problema de drop era devido ao tamanho das requisições. Kahle explicou que “aqueles que desejam usar nossos materiais em massa devem começar pequeno e aumentar”. Além disso, indicou, “se você pretende criar um projeto grande, entre em contato conosco em info@archive.org, estamos aqui para ajudar”. A ideia aqui era clara: usar o The Internet Archive é bom, mas “não nos destrua no processo”.

Modelos famintos. O problema que o Internet Archive enfrentou pode se repetir no futuro para outras plataformas: grandes modelos de IA como ChatGPT são treinados em grandes quantidades de dados: Wikipedia ou o Repositórios de código do GitHub são um bom exemplo, mas essas requisições, feitas de forma massiva, podem fazer com que o serviço fique prejudicado para os demais usuários ou até mesmo fique inacessível. Portanto, é conveniente que esse tipo de empresa entre em contato com essas plataformas para evitar esse tipo de problema.

alguém estava treinando uma IA

Deja un comentario Cancelar respuesta