O Parti Generator do Google utiliza 20 bilhões de entradas para criar imagens fotorrealistas

O Google revelou na quinta-feira seu modelo de computador de texto para imagem Parti, que gera imagens hiper-realistas estudando dezenas de bilhões de entradas.

O Pathways Autoregressive Text-to-Image, ou Parti, estuda conjuntos de imagens, que o Google chama de “tokens de imagem”, usando-os para criar novas imagens, disse a gigante das buscas em comunicado. site de pesquisa. As imagens do Parti tornam-se mais realistas quando você tem mais parâmetros (cartões e outros materiais de treinamento) para revisar. O modelo estuda 20 bilhões de parâmetros antes de gerar uma imagem final.

O Parti difere do Image, um gerador de texto para imagem que o Google projetou para usar o aprendizado por difusão. O processo treina modelos de computador adicionando “ruído” a uma imagem para torná-la mais escura, como se estivesse estática em uma tela de televisão. O modelo então aprende a decodificar a estática para recriar a imagem original. À medida que o modelo melhora, ele pode transformar o que parece ser uma série de pontos aleatórios em uma imagem.

O Google não está liberando Parti ou Image para o público porque os conjuntos de dados de IA apresentam risco de viés. Como os conjuntos de dados são criados por humanos, eles podem inadvertidamente se apoiar em estereótipos ou deturpar determinados grupos. Google diz que Parti e Imagen têm um viés para estereótipos ocidentais.

O Google se referiu a uma empresa postagem do blog quando solicitado a comentar sobre esta história.

A gigante das buscas tem investido pesado em inteligência artificial como forma de melhorar seus serviços e desenvolver a computação ambiental, uma forma de tecnologia tão intuitiva que passa a fazer parte do background. Em sua conferência de desenvolvedores de I/O em maio, o CEO Sundar Pichai disse que a IA está sendo usada para ajudar o Google Translate a adicionar idiomas, criar imagens 3D no Maps e condensar documentos em resumos rápidos.

Parti e Image não são os únicos modelos de texto para imagem disponíveis. Dall-E, VQ-GAN+CLIP e Latent Diffusion são outros modelos de texto para imagem que não são do Google que recentemente ganharam manchetes. O Dall-E Mini é uma IA de texto para imagem de código aberto que está disponível publicamente, mas é treinada em conjuntos de dados menores.

O Parti Generator do Google utiliza 20 bilhões de entradas para criar imagens fotorrealistas

Postagens relacionadas:

Deja un comentario Cancelar respuesta