AI基准战再起波浪：OpenAI质疑xAI Grok 3测试服从信得过性

股票杠杆

杠杆炒股，股票融资！

当前位置：正文

AI基准战再起波浪：OpenAI质疑xAI Grok 3测试服从信得过性

发布日期：2025-02-23 13:31 点击次数：164

近日，AI界限掀翻了一场对于基准测试服从信得过性的风云。争议的焦点采集在埃隆·马斯克旗下的xAI公司最新发布的AI模子Grok 3上。别称OpenAI职工对xAI公司公布的Grok 3在AIME 2025基准测试中的推崇建议了质疑，觉得其测试服从具有误导性。

xAI公司在其官方博客上发布了一张图表，展示了Grok 3的两个版块——Grok 3 Reasoning Beta和Grok 3 mini Reasoning，在AIME 2025基准测试中的超卓推崇。尽管AIME当作AI基准测试的灵验性受到了一些群众的质疑，但它仍然被往常用于评估AI模子的数学才略。这张图表炫耀，Grok 3的两个版块在AIME 2025上的推崇额外了OpenAI现时最强的可用模子o3-mini-high。

量度词，OpenAI职工连忙作出恢复，在酬酢媒体平台上指出xAI的图表并未包含o3-mini-high在“cons@64”要求下的得分。“cons@64”即允许模子对每个问题尝试64次，并将出现频率最高的谜底当作最终谜底，这种神色频繁会权贵升迁模子的基准测试分数。因此，要是图表中不详了这一数据，就可能导致诬蔑。

张开剩余55%

事实上，在AIME 2025的“@1”要求下（即模子初度尝试的得分），投资理财Grok 3 Reasoning Beta和Grok 3 mini Reasoning的得分均低于o3-mini-high。Grok 3 Reasoning Beta的推崇也略逊于OpenAI的o1模子在“中等推测打算”配置下的得分。尽管如斯，xAI仍坚握宣传Grok 3为“宇宙上最机灵的AI”。

濒临质疑，xAI的链接首创东说念主伊戈尔·巴布什金在酬酢媒体上进行了诡辩，他指出OpenAI畴昔曾经发布过访佛的具有误导性的基准测试图表，尽管这些图表是用于相比OpenAI本人模子的推崇。这一恢复并未平妥公约，反而进一步加重了两边的对立。

在这场争议中，一位中立的第三方从头画图了一张更为准确的图表，揭示了两边模子在AIME 2025基准测试中的信得过推崇。这张图表的出现，为公众提供了一个更为客不雅、全面的视角来注视这场风云。

量度词，这场风云也暴知道AI基准测试在传达模子局限性和上风方面的不及。AI商讨员内森·兰伯特在一篇著述中指出，约略最纷乱的见识仍然未知：每个模子达到最好分数所需的推测打算（和资产）本钱。这一不雅点激勉了业界的往常共识，也让东说念主们运行从头注视AI基准测试的兴味和价值。

发布于：山东省

友情链接：

股票杠杆

当前位置：正文

AI基准战再起波浪：OpenAI质疑xAI Grok 3测试服从信得过性

热点资讯

相关资讯