Google Gemini: Tudo que você precisa saber sobre os aplicativos e modelos de IA generativa
O Google está tentando causar impacto com o Gemini, sua suíte de modelos de IA generativa, aplicativos e serviços. Mas o que é o Gemini? Como você pode usá-lo? E como ele se compara a outras ferramentas de IA generativa como o ChatGPT da OpenAI, o Llama da Meta e o Copilot da Microsoft?
Para facilitar o acompanhamento dos últimos desenvolvimentos do Gemini, montamos este guia prático, que será atualizado à medida que novos modelos, recursos e notícias sobre os planos do Google para o Gemini forem lançados.
O que é o Gemini?
O Gemini é a família de modelos de IA generativa de última geração prometida pela Google. Desenvolvido pelos laboratórios de pesquisa em IA da Google, o DeepMind e o Google Research, ele vem em várias versões:
Gemini Ultra, um modelo muito grande.
Gemini Pro, um modelo grande – embora menor que o Ultra. A versão mais recente, Gemini 2.0 Pro, é o atual carro-chefe da Google.
Gemini Flash, uma versão mais rápida e “destilada” do Pro.
Gemini Flash-Lite, uma versão ligeiramente menor e mais rápida do Gemini Flash.
Gemini Flash Thinking, um modelo com capacidades de “raciocínio”.
Gemini Nano, dois modelos pequenos: Nano-1 e o um pouco mais capaz Nano-2, destinado a rodar offline.
Todos os modelos do Gemini foram treinados para serem nativamente multimodais – ou seja, capazes de trabalhar com e analisar mais do que apenas texto. A Google diz que eles foram pré-treinados e ajustados em uma variedade de áudios, imagens e vídeos públicos, proprietários e licenciados; em bases de código; e em textos em diferentes idiomas.
Isso diferencia o Gemini de modelos como o LaMDA da própria Google, que foi treinado exclusivamente em dados de texto. O LaMDA não pode entender ou gerar nada além de texto (por exemplo, ensaios, e-mails e assim por diante), mas esse não é necessariamente o caso com os modelos do Gemini. Por exemplo, as versões mais recentes do Gemini Flash e Gemini Pro podem gerar nativamente imagens e áudio, além de texto.
Vale ressaltar que a ética e a legalidade do treinamento de modelos em dados públicos, em alguns casos sem o conhecimento ou consentimento dos proprietários dos dados, são incertas. A Google possui uma política de indenização de IA para proteger certos clientes do Google Cloud de processos judiciais caso sejam processados, mas esta política contém exceções. Proc…
Qual é a diferença entre os aplicativos do Gemini e os modelos do Gemini?
O Gemini é separado e distinto dos aplicativos do Gemini na web e no celular (anteriormente Bard).
Os aplicativos do Gemini são clientes que se conectam a vários modelos do Gemini e adicionam uma interface semelhante a um chatbot por cima. Pense neles como frentes para a IA generativa da Google, análogos ao ChatGPT e à família de aplicativos Claude da Anthropic.
A imagem abaixo mostra o aplicativo móvel do Google Gemini.
Créditos da imagem: Google
O Gemini na web está aqui. No Android, o aplicativo Gemini substitui o aplicativo Google Assistant existente. E no iOS, os aplicativos Google e Google Search servem como clientes do Gemini naquela plataforma.
No Android, os usuários podem trazer uma sobreposição do Gemini para fazer perguntas sobre o que está em sua tela (por exemplo, um vídeo do YouTube). Pressionar e segurar o botão de energia de um smartphone compatível ou dizer “Ok Google” convoca a sobreposição do Gemini.
Os aplicativos do Gemini podem aceitar imagens, comandos de voz e texto – incluindo arquivos como PDFs, seja enviados ou importados do Google Drive – e gerar imagens. Como esperado, as conversas com os aplicativos do Gemini no celular se transferem para o Gemini na web e vice-versa se você estiver conectado à mesma Conta Google em ambos os lugares.
Gemini Avançado
Os aplicativos do Gemini não são os únicos meios de recrutar a ajuda dos modelos do Gemini nas tarefas. Aos poucos, recursos imbuídos do Gemini estão sendo introduzidos em aplicativos e serviços básicos do Google, como Gmail e Google Docs.
Para aproveitar a maioria desses recursos, você precisará do Google One Plano Premium de IA. Tecnicamente parte do Google One, o Plano Premium de IA custa US$ 20 por mês e fornece acesso ao Gemini nos aplicativos do Google Workspace como Docs, Maps, Slides, Sheets, Drive e Meet. Ele também habilita o que a Google chama de Gemini Avançado, que traz os modelos mais sofisticados do Gemini da empresa para os aplicativos do Gemini.
A imagem abaixo mostra um comercial do Google Gemini.
Créditos da imagem: Google
Os usuários do Gemini Avançado também recebem extras aqui e ali, como acesso prioritário a novos recursos e modelos; a capacidade de executar e editar código Python diretamente no Gemini; e limites expandidos para o NotebookLM, a ferramenta da Google que transforma PDFs em podcasts gerados por IA. Recentemente, o Gemini Avançado ganhou um recurso de memória que armazena as preferências dos usuários e permite que o Gemini se refira a conversas antigas como contexto para chats atuais.
Uma das exclusividades mais interessantes do Gemini Avançado, Pesquisa Profunda, aproveita os modelos do Gemini com “raciocínio avançado” para criar briefings detalhados. Em resposta a um prompt (por exemplo, “Como devo redesenhar minha cozinha?”), a Pesquisa Profunda desenvolve um plano de pesquisa em várias etapas e pesquisa na web para elaborar uma resposta abrangente.
Gemini no Gmail, Docs, Chrome, ferramentas de desenvolvimento e mais
No Gmail, o Gemini está em um painel lateral que pode escrever e resumir threads de mensagens. Você encontrará o mesmo painel no Docs, onde ajuda a escrever e refinar conteúdo e a gerar novas ideias. O Gemini no Slides gera slides e imagens personalizadas. E o Gemini no Google Sheets rastreia e organiza dados, criando tabelas e fórmulas.
O Gemini está no Google Maps, onde pode agregar comentários sobre negócios locais e oferecer recomendações, como como passar um dia visitando uma cidade estrangeira. A abrangência do chatbot se estende ao Drive, onde ele pode resumir arquivos e pastas e fornecer informações rápidas sobre um projeto.
A imagem abaixo mostra o Gemini no Gmail.
Créditos da imagem: Google
Recentemente, o Gemini chegou ao navegador Chrome da Google na forma de uma ferramenta de escrita de IA. Você pode usá-lo para escrever algo completamente novo ou reescrever texto existente; a Google diz que considerará a página da web em que você se encontra para fazer recomendações.
Em outros lugares, você encontrará indícios do Gemini nos produtos de banco de dados, ferramentas de segurança em nuvem e plataformas de desenvolvimento de aplicativos da Google (incluindo Firebase e Project IDX), bem como em aplicativos como Google Photos (onde o Gemini lida com consultas de pesquisa em linguagem natural), YouTube (onde ele ajuda a elaborar ideias para vídeos) e Meet (onde ele traduz legendas).
Code Assist (anteriormente Duet AI for Developers), a suíte de ferramentas de assistência alimentadas por IA da Google para completar e gerar código, está transferindo a carga computacional pesada para o Gemini. Assim como os produtos de segurança da Google suportados pelo Gemini, como o Gemini em Inteligência de Ameaças, que pode analisar grandes partes de código potencialmente malicioso e permitir que os usuários realizem pesquisas em linguagem natural para ameaças em andamento ou indicadores de comprometimento.
Extensões e Gems do Gemini
Os usuários avançados do Gemini podem criar Gems, chatbots personalizados em desktop e mobile alimentados por modelos do Gemini. As Gems podem ser geradas a partir de descrições de linguagem natural – por exemplo, “Você é meu treinador de corrida. Me dê um plano diário de corrida” – e compartilhadas com outros usuários ou mantidas privadas.
A imagem abaixo mostra as Gems do Gemini.

Créditos da imagem: Google
Os aplicativos do Gemini podem se conectar aos serviços do Google por meio do que a Google chama de “extensões do Gemini”. O Gemini se integra ao Drive, Gmail, YouTube e mais para responder a perguntas como “Você poderia resumir meus últimos três e-mails?”
Conversas profundas ao vivo do Gemini
Uma experiência chamada Gemini Live permite que os usuários tenham conversas por voz “profundas” com o Gemini. Está disponível nos aplicativos do Gemini no celular e nos Pixel Buds Pro 2, onde pode ser acessado mesmo quando o telefone está bloqueado.
A imagem abaixo mostra o Gemini Live.
Créditos da imagem: Google
Com o Gemini Live ativado, você pode interromper o Gemini enquanto o chatbot está falando para fazer uma pergunta de esclarecimento e ele se adaptará aos seus padrões de fala em tempo real. O Live também foi projetado para servir como um tipo de treinador virtual, ajudando você a ensaiar para eventos, elaborar ideias, e assim por diante. Por exemplo, o Live pode sugerir quais habilidades destacar em uma próxima entrevista de emprego e dar dicas de fala em público.
Você pode ler nossa análise do Gemini Live aqui.
Gemini para jovens
A Google oferece uma experiência do Gemini focada em adolescentes para estudantes.
A versão do Gemini focada em adolescentes tem “políticas e salvaguardas adicionais”, incluindo um processo de integração personalizado e um guia de alfabetização de IA. Caso contrário, é quase idêntica à experiência padrão do Gemini, incluindo o recurso de “verificação dupla” que busca pela web para ver se as respostas do Gemini são precisas.
O que os modelos do Gemini podem fazer?
Como os modelos do Gemini são multimodais, eles podem realizar uma variedade de tarefas multimodais, desde transcrever fala até legendar imagens e vídeos em tempo real. Muitas dessas capacidades já chegaram à fase de produto, e a Google promete muito mais em um futuro não muito distante.
É claro que a Google não oferece uma solução para alguns dos problemas fundamentais da tecnologia de IA generativa hoje, como seus vieses codificados e a tendência a inventar coisas (ou seja, alucinar). Nem seus concorrentes, mas é algo para se ter em mente ao considerar usar ou pagar pelo Gemini.
Recursos do Gemini Pro
A Google diz que seu último modelo Pro, Gemini 2.0 Pro, é seu melhor até agora para codificação e prompts complexos. O 2.0 Pro supera seu antecessor, o Gemini 1.5 Pro, em benchmarks que medem programação, raciocínio, matemática e precisão factual.
Na plataforma Vertex AI da Google, os desenvolvedores podem personalizar o Gemini Pro para contextos e casos de uso específicos por meio de um processo de ajuste fino ou “grounding”. Por exemplo, Pro (junto com outros modelos do Gemini) pode ser instruído a usar dados de provedores terceirizados como Moody’s, Thomson Reuters, ZoomInfo e MSCI, ou obter informações de conjuntos de dados corporativos ou da Pesquisa Google em vez de seu amplo banco de conhecimento. O Gemini Pro também pode ser conectado a APIs externas de terceiros para realizar ações específicas, como automatizar um fluxo de trabalho de back-office.
A plataforma AI Studio da Google oferece modelos para a criação de prompts de chat estruturados com o Pro. Os desenvolvedores podem controlar o alcance criativo do modelo e fornecer exemplos para dar instruções de tom e estilo – e também ajustar as configurações de segurança do Pro.
Gemini Flash é leve, enquanto o Gemini Flash Thinking adiciona raciocínio
Gemini 2.0 Flash, que pode usar ferramentas como a Pesquisa Google e interagir com APIs externas, supera alguns dos maiores modelos 1.5 do Gemini em benchmarks que medem codificação e análise de imagem. Um desdobramento do Gemini Pro, o Flash é pequeno e eficiente – construído para cargas de trabalho generativas estreitas e de alta frequência.
A Google diz que o Flash é particularmente adequado para tarefas como resumos e aplicativos de chat, além de legendar imagens e vídeos e extrair dados de documentos longos e tabelas. Enquanto isso, o Gemini 2.0 Flash-Lite, uma versão mais compacta do Flash, supera o Gemini 1.5 Flash, mas roda pelo mesmo preço e velocidade, de acordo com a Google.
Em dezembro passado, a Google lançou uma versão “pensante” do Gemini 2.0 Flash capaz de “raciocinar”. O modelo de IA leva alguns segundos para retroceder em um problema antes de dar uma resposta, o que pode melhorar sua confiabilidade.
Gemini Nano pode rodar em seu telefone
O Gemini Nano é uma versão pequena do Gemini eficiente o suficiente para rodar diretamente em (alguns) dispositivos em vez de enviar a tarefa para um servidor em algum lugar. Até agora, o Nano alimenta um par de recursos nos Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 e Samsung Galaxy S24, incluindo Sumarizar no Gravador e Responder Inteligente no Gboard.
O aplicativo Gravador, que permite aos usuários pressionar um botão para gravar e transcrever áudio, inclui um resumo alimentado pelo Gemini de conversas gravadas, entrevistas, apresentações e outros trechos de áudio. Os usuários recebem resumos mesmo se não tiverem um sinal ou conexão Wi-Fi – e em um gesto de privacidade, nenhum dado sai do telefone durante o processo.
O Nano também está no Gboard, a substituição do teclado do Google. Lá, ele alimenta a Resposta Inteligente, que ajuda a sugerir o que você vai querer dizer a seguir ao conversar em um aplicativo de mensagens como o WhatsApp.
Uma versão futura do Android aproveitará o Nano para alertar os usuários sobre possíveis fraudes durante ligações. O novo aplicativo de clima nos telefones Pixel usa o Gemini Nano para gerar relatórios meteorológicos personalizados. E o TalkBack, o serviço de acessibilidade da Google, emprega o Nano para criar descrições auditivas de objetos para usuários com baixa visão e cegos.
Gemini Ultra, MIA por enquanto
Não vimos muito do Gemini Ultra nos últimos meses. O modelo não está disponível nos aplicativos do Gemini e não está listado na página de preços da API do Gemini da Google. No entanto, isso não significa que a Google não trará o Ultra de volta em algum momento no futuro.
Quanto custam os modelos do Gemini?
O Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash e 2.0 Flash-Lite estão disponíveis por meio da API do Gemini da Google para construir aplicativos e serviços. Eles são pagos conforme o uso. Aqui estão os preços base – sem incluir extras – a partir de fevereiro de 225:
Gemini 1.5 Pro: US$ 1,25 por 1 milhão de tokens de entrada (para prompts de até 128.000 tokens) ou US$ 2,50 por 1 milhão de tokens de entrada (para prompts mais longos que 128.000 tokens); US$ 5 por 1 milhão de tokens de saída (para prompts de até 128.000 tokens) ou US$ 10 por 1 milhão de tokens de saída (para prompts mais longos que 128.000 tokens)
Gemini 1.5 Flash: 7,5 centavos por 1 milhão de tokens de entrada (para prompts de até 128.000 tokens), 15 centavos por 1 milhão de tokens de entrada (para prompts mais longos que 128.000 tokens), 30 centavos por 1 milhão de tokens de saída (para prompts de até 128.000 tokens), 60 centavos por 1 milhão de tokens de saída (para prompts mais longos que 128.000 tokens)
Gemini 2.0 Flash: 10 centavos por 1 milhão de tokens de entrada, 40 centavos por 1 milhão de tokens de saída. Para áudio, 70 centavos por 1 milhão de tokens de entrada.
Gemini 2.0 Flash-Lite: 7,5 centavos por 1 milhão de tokens de entrada, 30 centavos por 1 milhão de tokens de saída.
Os tokens são partes subdivididas de dados brutos, como as sílabas “fan”, “tas” e “tic” na palavra “fantástico”; 1 milhão de tokens equivale a cerca de 750.000 palavras. Entrada se refere aos tokens alimentados no modelo, enquanto saída se refere aos tokens que o modelo gera.
O preço do 2.0 Pro ainda não foi anunciado, e o Nano ainda está em acesso antecipado.
O Gemini está chegando ao iPhone?
Pode ser.
A Apple disse que está em negociações para usar o Gemini e outros modelos de terceiros para uma série de recursos em sua suíte de Inteligência da Apple. Após uma apresentação na WWDC 2024, o vice-presidente sênior da Apple