OpenAI ameaça banir enquanto usuários examinam modelos de IA ‘Strawberry’

A OpenAI realmente não quer que você saiba o que o modelo de IA mais recente “pensa”. Da empresa foi lançado Na semana passada, a família de modelos de IA “Strawberry”, que apresenta os chamados recursos de pensamento com o1-view e o1-mini, OpenAI envia e-mails de alerta e proíbe ameaças a qualquer usuário que tente verificar como o modelo funciona.

Ao contrário dos modelos de IA anteriores da OpenAI, como GPT-4oa empresa treinou especificamente o1 para trabalhar em um processo passo a passo de resolução de problemas antes de gerar uma resposta. Quando os usuários perguntam o modelo “o1”. Bate-papoGPTos usuários têm a opção de visualizar esse processo de cadeia de pensamento na interface ChatGPT. No entanto, por design, o OpenAI esconde a cadeia bruta de pensamento dos usuários, fornecendo em vez disso uma interpretação filtrada criada por um segundo modelo de IA.

Nada é mais interessante para os fãs do que informações ocultas, por isso continua a corrida entre hackers e equipes vermelhas para tentar descobrir a cadeia de pensamento bruta de o1. desbloqueio ou injeção imediata métodos que tentam enganar o modelo e divulgar seus segredos. Houve relatos iniciais de algum sucesso, mas nada foi firmemente confirmado ainda.

Enquanto isso, a OpenAI está observando a interface do ChatGPT, e a empresa está supostamente reprimindo qualquer tentativa de verificar as credenciais do o1, mesmo entre os curiosos.

Um usuário X relatado (confirmado outrosincluindo engenheiro instantâneo Scale AI Riley Goodside) que receberam um e-mail de aviso caso usassem o termo “rastreamento de fatos” em uma conversa com o1. Outros dizer O alerta é acionado simplesmente perguntando ao ChatGPT sobre a “prova” do modelo.

Uma mensagem de aviso da OpenAI dizia que solicitações específicas de usuários foram sinalizadas por violar políticas contra evasão de garantias ou medidas de segurança. “Por favor, interrompa esta atividade e certifique-se de usar o ChatGPT de acordo com nossos Termos de Uso e Política de Uso”, disse. “Violações adicionais desta política podem resultar na perda de acesso ao GPT-4o com contrapartida”, referindo-se ao nome interno do modelo o1.

Marco Figueroa que gerencia O programa de recompensas de bugs GenAI da Mozilla foi um dos primeiros a postar um e-mail de aviso da OpenAI na sexta-feira X, reclamar que isso interfere em sua capacidade de realizar pesquisas positivas de segurança no modelo. “Eu estava tão perdido em #AIRedTeaming até perceber que recebi esta mensagem da @OpenAI ontem, depois de toda minha bagunça”, escreveu ele. “Estou na lista de banidos agora!!!”

Cadeias ocultas de pensamento

Em um artigo intitulado “Estudando ideias com LLMs”No blog OpenAI, a empresa afirma que as cadeias de pensamento ocultas nos modelos de IA oferecem uma capacidade de monitoramento única que lhes permite ler a “mente” do modelo e compreender seu chamado processo de pensamento. Esses processos são mais benéficos para a empresa se permanecerem brutos e sem censura, mas isso pode não ser do interesse comercial da empresa por vários motivos.

“Por exemplo, no futuro queremos monitorar a cadeia de pensamento em busca de sinais de manipulação do usuário”, escreve a empresa. “No entanto, para que isto funcione, o modelo deve ter a liberdade de expressar os seus pensamentos de uma forma inalterada, por isso não podemos ensinar qualquer conformidade política ou preferências do utilizador à cadeia de pensamento. Também não queremos fazer a cadeia de pensamento correspondente diretamente visível para os usuários.”

Fonte