O Google anuncia TPU de Ironwood de 7ª geração, Lyria Text-to Music

Além do mais recente espaço de trabalho na Cloud Next 2025, o Google anunciou hoje a Ironwood, sua unidade de processamento de tensores de 7ª geração (TPU) e os mais recentes modelos generativos.

Ironwood

A TPU da Ironwood é o “Acelerador de IA personalizado mais com desempenho e escalável do Google até o momento”, bem como eficiente em termos energéticos, e o “primeiro projetado especificamente para inferência”. Especificamente:

O Ironwood representa uma mudança significativa no desenvolvimento da IA e na infraestrutura que alimenta seu progresso. É uma mudança dos modelos de IA responsivos que fornecem informações em tempo real para as pessoas interpretarem, para modelos que fornecem a geração proativa de insights e interpretação. É isso que chamamos de “Age de Inferência”, onde os agentes de IA recuperarão e gerarão proativamente os dados para fornecer colaborativamente insights e respostas, não apenas dados.

A Ironwood foi projetada para gerenciar as demandas dos modelos de pensamento, que “abrangem modelos de grandes idiomas (LLMS), mistura de especialistas (MOEs) e tarefas avançadas de raciocínio”, que requerem processamento paralelo “maciço” e acesso eficiente na memória. Este último é alcançado minimizando “o movimento e a latência dos dados no chip enquanto realizam manipulações de tensores maciços”.

Na fronteira, as demandas de computação dos modelos de pensamento se estendem muito além da capacidade de qualquer chip único. Projetamos TPUs de Ironwood com uma rede ICI de alta largura de banda de baixa latência para oferecer suporte à comunicação síncrona coordenada em escala completa da POD TPU.

Os clientes do Google Cloud podem acessar um 256 ou 9.216-chip-cada chip individual oferece computação de pico de 4.614 tflops-configuração. O último é um pod que possui um total de 42,5 exaflops ou: “Mais de 24x a potência do computador do maior supercomputador do mundo – El Capitan – que oferece apenas 1,7 exaflops por vagem”.

Anúncio – Role para obter mais conteúdo

O Ironwood oferece desempenho por watt, 2x em relação ao trillium de 6ª geração anunciado em 2024, bem como 192 GB de alta memória de largura de banda por chip (6x Trillium).

O Pathways é o tempo de execução distribuído do Google que alimenta o treinamento interno em larga escala e a infraestrutura de inferência. Agora está disponível para clientes do Google Cloud.

Gêmeos 2.5 Flash

O Gemini 2.5 Flash é o “modelo de cavalo de trabalho” do Google, onde a baixa latência e o custo são priorizados. Em breve, para o Vertex AI, ele apresenta “raciocínio dinâmico e controlável”.

O modelo ajusta automaticamente o tempo de processamento (‘orçamento de pensamento’) com base na complexidade da consulta, permitindo respostas mais rápidas para solicitações simples. Você também ganha controle granular sobre esse orçamento, permitindo ajuste explícito da velocidade, precisão e saldo de custos para suas necessidades específicas. Essa flexibilidade é essencial para otimizar o desempenho do flash em aplicações de alto volume e sensíveis a custos

Exemplo de casos de uso de alto volume incluem atendimento ao cliente e processamento de informações em tempo real.

Modelos Gen AI

O Google agora está fazendo seu Lyria Modelo de texto para música disponível para clientes corporativos “em visualização com a lista de permissões” no Vertex AI. Este modelo pode gerar áudio de alta fidelidade em uma variedade de gêneros. As empresas podem usá -lo para criar trilhas sonoras rapidamente adaptadas à “identidade única de uma marca”. Outro uso é para produção de vídeo e podcasting:

Lyria elimina esses obstáculos, permitindo que você gere faixas de música personalizadas em minutos, alinhando -se diretamente ao humor, ritmo e narrativa do seu conteúdo. Isso pode ajudar a acelerar os fluxos de trabalho de produção e reduzir os custos de licenciamento.

A seguir, é apresentado um exemplo: “Crie uma melodia de bebop de alta octanagem. Priorize solos de saxofone estonteante e trompete, negociando frases complexas na velocidade da luz. O piano deve fornecer caprichos percussivos, o nacional de acordos, o tono, o tons, com o ruptura, o rastreio, o rapido, o tiro que se sente em um tiro que não pode ser um pouco que o tono. virtuosismo e improvisação.

https://www.youtube.com/watch?v=ch1yayxdrbc

Enquanto isso, Eu vejo 2 está obtendo recursos de edição que permitem alterar as imagens existentes:

Painting: Obtenha edições profissionais limpas sem retoque manual. Você pode remover imagens, logotipos ou distrações indesejados de seus vídeos, fazendo -os desaparecer suavemente e perfeitamente em cada quadro, para que eles nunca estejam lá.
Ultrapassar: Estenda o quadro das imagens de vídeo existentes, transformando o vídeo tradicional em formatos otimizados para plataformas da Web e móveis. Isso ajuda a facilitar a adaptação de seu conteúdo para vários tamanhos de tela e proporções – por exemplo, convertendo o vídeo da paisagem em retrato para shorts de mídia social.

Da mesma forma, o Imagen 3 Editing apresenta melhorias na pintura “para reconstruir partes ausentes ou danificadas de uma imagem”, bem como a remoção de objetos.

Chirp 3 é o modelo de entendimento e geração de áudio do Google. Oferece “Vozes HD” com discurso natural e realista em mais de 35 idiomas com oito opções de alto -falantes. O aspecto do entendimento alimenta um novo recurso que “separa e identifica com precisão os falantes individuais em gravações de vários falantes” para melhor transcrição.

Outro novo recurso permite Chirp 3 “Gere vozes personalizadas realistas a partir de 10 segundos de entrada de áudio”.

Isso permite que as empresas personalizem os call centers, desenvolvam conteúdo acessível e estabeleçam vozes de marca exclusivas – tudo mantendo uma identidade consistente da marca. Para garantir o uso responsável, a voz personalizada instantânea inclui recursos de segurança integrados, e nosso processo de listagem de permissões envolve diligência rigorosa para verificar as permissões adequadas de uso de voz.

Na frente de segurança, “o Synthid de Deepmind incorpora marcas d’água invisíveis em todas as imagens, vídeo e estrutura de áudio que imaginam, Veo e Lyria produzem”.

FTC: Utilizamos links de afiliados de automóveis. Mais.

Source link