OpenAI enfrenta críticas: Modelo O3 não atinge benchmarks prometidos em desempenho

Novas avaliações técnicas indicam que o modelo O3 da OpenAI, lançado recentemente, está aquém das métricas de desempenho divulgadas pela própria organização. Especialistas em IA apontam discrepâncias significativas entre os resultados reais e os benchmarks prometidos, levantando questões sobre a validade dos testes internos da empresa. O setor acompanha com atenção os desdobramentos, já que o O3 era aguardado como um marco no desenvolvimento de modelos de linguagem de grande escala.
OpenAI confirmou que o modelo público O3 usa menos computação do que a versão demo
A evidência de que a O3 comercial também veio também veio de testes da ARC Prêmio Foundation, que tentou uma construção anterior e maior. O lançamento público "é um modelo diferente ... sintonizado para o uso de bate -papo/produto", o arco Price Foundation postou em X, acrescentando que "todas as camadas de computação O3 lançadas são menores que a versão que comparamos".
A funcionária da Openai, Wenda Zhou, ofereceu uma explicação semelhante durante uma transmissão ao vivo na semana passada. O sistema de produção, disse ele, foi "mais otimizado para casos de uso do mundo real" e velocidade. "Fizemos [otimizações] para tornar o modelo mais econômico [e] mais útil em geral", disse Zhou, ao mesmo tempo em que reconhece a possível referência "disparidades".
Dois modelos menores da empresa, O3 -Mini -High e o recém -anunciado O4 -Mini, já venceram a O3 na Frontiermath, e o Openai diz que uma melhor variante O3 -Pro chegará nas próximas semanas.
Ainda assim, mostra como as manchetes de referência podem ser enganosas. Em janeiro, a Epoch foi criticada por adiar a divulgação do financiamento do Openai até depois da estréia da O3. Mais recentemente, a startup Xai de Elon Musk foi acusada de apresentar gráficos que exageravam as capacidades de seu modelo GROK 3.
Os observadores da indústria dizem que essas controvérsias de referência estão se tornando uma ocorrência no setor de IA, enquanto as empresas correm para capturar manchetes com novos modelos.
Academia Cryptopolitan: Cansado de balanços de mercado? Saiba como DeFi pode ajudá -lo a criar renda passiva constante. Registre -se agora