Agora você pode testar a saída de imagem nativa Gemini 2.0 Flash

Seguindo Gemma 3 e Gemini Robotics hoje cedo, a AI News do Google continua Com acesso mais amplo à saída de imagem nativa no flash Gemini 2.0, que permite a edição de imagens de conversação juntamente com outros recursos.

Quando o Gemini 2.0 Flash foi anunciado em dezembro, o Google falou sobre a saída de áudio e imagem, além do texto. Faz parte de fazer de Gemini um modelo multimodal que pode aceitar várias entradas e gerar saídas semelhantes.

Em vez de apenas fornecer um rápido e recuperar uma imagem, a saída nativa permite “editar imagens em muitas voltas de um diálogo de linguagem natural”. O contexto é preservado ao longo da conversa.

Enquanto isso, o Flash 2.0 pode renderizar melhor imagens com texto, incluindo sequências longas. Isso tem sido difícil para os modelos de hoje.

Anúncio – Role para obter mais conteúdo

Comparado a outros modelos de geração de imagens independentes, esse recurso no Flash 2.0 “aproveita o conhecimento mundial e o raciocínio aprimorado para criar a imagem certa”.

Isso o torna perfeito para criar imagens detalhadas que sejam realistas – como ilustrar uma receita. Enquanto ele se esforça por precisão, como todos os modelos de idiomas, seu conhecimento é amplo e geral, não absoluto ou completo.

No exemplo abaixo, o prompt é: “Dê -me uma receita para um biscoito de chocolate. Por favor, inclua uma imagem de cada etapa. ”

Um exemplo de uso do caso de poder produzir texto e imagens juntos está pedindo 2.0 Flash para contar uma história com fotos que mantêm os “personagens e configurações consistentes por toda parte”.

Em dezembro, a saída de imagem nativa do Gemini 2.0 Flash era apenas para testadores confiáveis. Todos os desenvolvedores/usuários agora podem experimentá -lo no Google AI Studio com a versão experimental atualizada do Gemini 2.0 Flash (Gemini-2.0-Flash-Exp), ou a API de Gêmeos. No seletor de modelos da direita (na área de trabalho), vá para a seção “Preview”. Defina o “formato de saída” para: imagens + texto. Limites diários estão no lugar.

FTC: Utilizamos links de afiliados de automóveis. Mais.