Novos modelos de IA da OpenAI têm nova proteção contra riscos biológicos
A OpenAI divulgou que implantou um novo sistema para monitorar seus mais recentes modelos de raciocínio de IA, o3 e o4-mini, em relação a ameaças biológicas e químicas. O sistema visa evitar que os modelos ofereçam conselhos que possam instruir alguém a realizar ataques potencialmente prejudiciais, de acordo com o relatório de segurança da OpenAI.
O3 e o4-mini representam um aumento significativo na capacidade em relação aos modelos anteriores da OpenAI, diz a empresa, e assim apresentam novos riscos nas mãos de atores mal-intencionados. De acordo com os benchmarks internos da OpenAI, o3 é mais habilidoso em responder a perguntas sobre a criação de certos tipos de ameaças biológicas em particular. Por essa razão – e para mitigar outros riscos – a OpenAI criou o novo sistema de monitoramento, que a empresa descreve como um “monitor de raciocínio focado na segurança”.
O monitor, treinado de forma personalizada para analisar as políticas de conteúdo da OpenAI, roda em cima de o3 e o4-mini. Ele foi projetado para identificar solicitações relacionadas a riscos biológicos e químicos e instruir os modelos a recusarem-se a oferecer conselhos sobre esses tópicos. Para estabelecer uma base, a OpenAI teve equipes de red teamers gastando cerca de 1.000 horas identificando conversas “inseguras” relacionadas a riscos biológicos de o3 e o4-mini. Durante um teste no qual a OpenAI simulou a “lógica de bloqueio” de seu monitor de segurança, os modelos se recusaram a responder a solicitações arriscadas 98,7% do tempo, segundo a OpenAI.

A OpenAI reconhece que seu teste não considerou pessoas que poderiam tentar novas solicitações após serem bloqueadas pelo monitor, sendo esse o motivo pelo qual a empresa diz que continuará a depender em parte do monitoramento humano. O3 e o4-mini não ultrapassam o limiar de “risco alto” da OpenAI para riscos biológicos, de acordo com a empresa. No entanto, em comparação com o1 e GPT-4, a OpenAI afirma que as versões iniciais de o3 e o4-mini se mostraram mais úteis em responder a perguntas sobre o desenvolvimento de armas biológicas.
A empresa está acompanhando ativamente como seus modelos poderiam facilitar a vida de usuários maliciosos na criação de ameaças químicas e biológicas, de acordo com o Framework de Preparação recentemente atualizado da OpenAI.
[[IMG::]]Gráfico do cartão do sistema de o3 e o4-mini (Captura de tela: OpenAI)