CEO da DeepMind, Demis Hassabis, afirma que o Google irá eventualmente combinar seus modelos de IA Gemini e Veo
Em uma recente participação no Possible, um podcast coapresentado pelo co-fundador do LinkedIn, Reid Hoffman, o CEO do Google DeepMind, Demis Hassabis, afirmou que a gigante das buscas planeja eventualmente combinar seus modelos de AI Gemini com seus modelos de geração de vídeo Veo para melhorar a compreensão do primeiro sobre o mundo físico.
“Sempre construímos o Gemini, nosso modelo de fundação, para ser multimodal desde o início”, disse Hassabis, “E a razão pela qual fizemos isso [é porque] temos uma visão para essa ideia de um assistente digital universal, um assistente que realmente ajuda você no mundo real.”
A indústria de AI está gradualmente avançando em direção a modelos “omni”, se assim podemos dizer – modelos que podem entender e sintetizar muitas formas de mídia. Os mais novos modelos de Gemini do Google podem gerar áudio, imagens e texto, enquanto o modelo padrão em ChatGPT da OpenAI agora pode criar imagens – incluindo, é claro, arte no estilo Studio Ghibli. A Amazon também anunciou planos para lançar um modelo “qualquer para qualquer” ainda este ano.

Esses modelos omni requerem muitos dados de treinamento – imagens, vídeos, áudio, texto e assim por diante. Hassabis deu a entender que os dados de vídeo para Veo estão vindo principalmente do YouTube, uma plataforma de propriedade do Google.
“Basicamente, assistindo a vídeos do YouTube – muitos vídeos do YouTube – Veo 2 pode descobrir, sabe, a física do mundo”, disse Hassabis.
O Google anteriormente disse ao TechCrunch que seus modelos “podem ser” treinados em “algum” conteúdo do YouTube de acordo com seu acordo com os criadores do YouTube. Supostamente, a empresa ampliou seus termos de serviço no ano passado em parte para aproveitar mais dados para treinar seus modelos de AI.