Grok3 manipulou resultados dos benchmarks?
Há nova mini-polémica a propósito do lançamento do Grok3, com um funcionário da OpenAI a acusar a xAI de apresentar resultados enganadores nos benchmarks. A xAI lançou o Grok 3 esta semana e, tal como Elon Musk tinha prometido, tudo indica que se trata do mais poderoso modelo AI do momento, superando até os mais avançados modelos da OpenAI em diversos benchmarks. Mas, alguns funcionários da OpenAI dizem que esses resultados são enganadores e não representam uma comparação justa. O problema está num gráfico partilhado pela xAI, que indica que Grok 3 Reasoning Beta e Grok 3 mini Reasoning superam o o3-mini-high da OpenAI no teste de matemática AIME 2025. No entanto, investigadores da OpenAI alertaram que a comparação omitiu um pormenor essencial: o "consensus@64" (cons@64), um método que afecta consideravelmente os resultados dos benchmarks. O cons@64 permite que um modelo tenha 64 tentativas para resolver cada problema, considerando a resposta mais frequente como para a pontuação final. Isto normalmente aumenta as pontuações e pode criar a impressão de que um modelo é superior quando, na realidade, não é o caso. Quando se analisam os resultados do Grok 3 na sua primeira tentativa ("@1"), o o3-mini-high da OpenAI ainda lidera. Além disso, o Grok 3 Reasoning Beta fica ligeiramente atrás do modelo o1 da OpenAI, configurado para desempenho médio, o que levanta dúvidas sobre a alegação da xAI de que o Grok 3 é a "AI mais inteligente do mundo". As acusações da OpenAI não ficaram sem resposta, com o cofundador da xAI, Igor Babushkin, a dizer que são resultados válidos e argumentando que a OpenAI também já publicou gráficos "enganadores" para comparar os seus próprios modelos. Hilarious how some people see my plot as attack on OpenAI and others as attack on Grok while in reality it's DeepSeek propaganda(I actually believe Grok looks good there, and openAI's TTC chicanery behind o3-mini-*high*-pass@"""1""" deserves more scrutiny.) https://t.co/dJqlJpcJh8 pic.twitter.com/3WH8FOUfic— Teortaxes▶️ (DeepSeek 推特

A xAI lançou o Grok 3 esta semana e, tal como Elon Musk tinha prometido, tudo indica que se trata do mais poderoso modelo AI do momento, superando até os mais avançados modelos da OpenAI em diversos benchmarks. Mas, alguns funcionários da OpenAI dizem que esses resultados são enganadores e não representam uma comparação justa.
O problema está num gráfico partilhado pela xAI, que indica que Grok 3 Reasoning Beta e Grok 3 mini Reasoning superam o o3-mini-high da OpenAI no teste de matemática AIME 2025. No entanto, investigadores da OpenAI alertaram que a comparação omitiu um pormenor essencial: o "consensus@64" (cons@64), um método que afecta consideravelmente os resultados dos benchmarks.
O cons@64 permite que um modelo tenha 64 tentativas para resolver cada problema, considerando a resposta mais frequente como para a pontuação final. Isto normalmente aumenta as pontuações e pode criar a impressão de que um modelo é superior quando, na realidade, não é o caso. Quando se analisam os resultados do Grok 3 na sua primeira tentativa ("@1"), o o3-mini-high da OpenAI ainda lidera. Além disso, o Grok 3 Reasoning Beta fica ligeiramente atrás do modelo o1 da OpenAI, configurado para desempenho médio, o que levanta dúvidas sobre a alegação da xAI de que o Grok 3 é a "AI mais inteligente do mundo". As acusações da OpenAI não ficaram sem resposta, com o cofundador da xAI, Igor Babushkin, a dizer que são resultados válidos e argumentando que a OpenAI também já publicou gráficos "enganadores" para comparar os seus próprios modelos.
Hilarious how some people see my plot as attack on OpenAI and others as attack on Grok while in reality it's DeepSeek propaganda
(I actually believe Grok looks good there, and openAI's TTC chicanery behind o3-mini-*high*-pass@"""1""" deserves more scrutiny.) https://t.co/dJqlJpcJh8 pic.twitter.com/3WH8FOUfic— Teortaxes▶️ (DeepSeek 推特