Google lança ‘caching implícito’ para tornar o acesso aos seus últimos modelos de IA mais econômico
O Google está lançando um recurso em sua API Gemini que a empresa afirma que tornará seus últimos modelos de IA mais baratos para desenvolvedores de terceiros.
O recurso é chamado de “caching implícito” e alega entregar uma economia de 75% em “contexto repetitivo” passado para modelos via API Gemini. Ele suporta os modelos Gemini 2.5 Pro e 2.5 Flash do Google.
Isso provavelmente será uma boa notícia para os desenvolvedores, à medida que o custo de usar modelos de ponta continua a crescer.
O caching, uma prática amplamente adotada na indústria de IA, reutiliza dados frequentemente acessados ou pré-computados pelos modelos para reduzir os requisitos de computação e custo. Por exemplo, caches podem armazenar respostas para perguntas que os usuários frequentemente fazem a um modelo, eliminando a necessidade de o modelo recriar respostas para a mesma solicitação.
Anteriormente, o Google oferecia o caching de prompt de modelo, mas apenas o caching de prompt explícito, o que significa que os desenvolvedores tinham que definir seus prompts de maior frequência. Embora a economia de custos fosse garantida, o caching de prompt explícito geralmente envolvia muito trabalho manual.

Alguns desenvolvedores não ficaram satisfeitos com o funcionamento do caching explícito da Google para o Gemini 2.5 Pro, que poderia resultar em contas de API surpreendentemente grandes. As reclamações atingiram um nível crítico na semana passada, levando a equipe do Gemini a se desculpar e se comprometer a fazer alterações.
Em contraste com o caching explícito, o caching implícito é automático. Ativado por padrão para os modelos Gemini 2.5, ele repassa as economias de custos se uma solicitação da API Gemini a um modelo atingir um cache.
“[Q]uando você envia uma solicitação para um dos modelos Gemini 2.5, se a solicitação compartilhar um prefixo com uma das solicitações anteriores, então ela é elegível para um cache hit”, explicou o Google em um post no blog. “Nós passaremos dinamicamente as economias de custos de volta para você.”
O número mínimo de tokens de prompt para caching implícito é de 1.024 para 2.5 Flash e 2.048 para 2.5 Pro, de acordo com a documentação para desenvolvedores do Google, o que não é uma quantidade muito grande, o que significa que não deve ser necessário muito para acionar essas economias automáticas. Tokens são os bits de dados brutos com os quais os modelos trabalham, com mil tokens equivalentes a cerca de 750 palavras.
Considerando que as últimas alegações do Google sobre economia de custos com caching causaram problemas, existem algumas áreas de cuidado para compradores neste novo recurso. Por um lado, o Google recomenda que os desenvolvedores mantenham o contexto repetitivo no início das solicitações para aumentar as chances de acertos de cache implícitos. O contexto que pode mudar de solicitação para solicitação deve ser anexado no final, diz a empresa.
Por outro lado, o Google não ofereceu nenhuma verificação de terceiros de que o novo sistema de caching implícito entregará as economias automáticas prometidas. Então teremos que ver o que os primeiros adotantes dizem.