/ 币百科

马斯克(Musk)的Xai揭幕了Grok-3:更多的力量,但它打破了新的地面吗?

发布时间:2025-02-18 17:01:15
欧意最新版本

欧意最新版本

欧意最新版本app是一款安全、稳定、可靠的数字货币交易平台。

APP下载  官网地址
本站报道:

由埃隆·马斯克(Elon Musk)的XAI开发的Grok-3周一揭幕,该公司大胆地宣称其能力,同时展示了一个庞大的计算基础设施,这表明了更大的野心。

公告尽管许多实际的演示感觉就像重播了其他AI公司已经取得的成就,但专注于原始计算肌肉,基准性能和即将到来的功能。

节目的最初部分的明星不是AI本身,而是“ Colossus”,这是一个庞然大物200,000 GPU的庞然大物集群,可以为Grok-3的训练提供动力。 

该系统分为两个阶段:在100,000 GPU上进行122天的同步培训,然后扩大92天的规模至全200,000天。根据XAI开发人员的说法,建立这种基础设施比开发AI模型本身更具挑战性。 

该公司已经制定了一个更强大的集群的计划,马斯克说他们的目标是当前能力的五倍,有效地建立了地球上最强大的GPU集群。

在性能方面,Grok-3在标准AI基准测试中显示出令人印象深刻的结果。基本模型(无思想链和推理嵌入的常规模型)始终在数学(AIME),Science(GPOA)和编码(LCB)测试中排名第一。 

在盲试验中似乎也很有希望。 

Xai确认,编号为“巧克力”的神秘模型实际上是Grok-3的早期测试版本,已上传到LLM竞技场

在这些测试期间,它在所有LLM中都达到了最好的ELO,这意味着用户在直接竞争中所有其他AI模型提供的几代人不知道他们正在评估哪种模型的情况下更喜欢其答案。

这可能是衡量质量的最准确的方法,而无需给任何模型作弊基准通过在这些数据集上训练他们的AIS。该基准纯粹基于数千名匿名用户的偏好和盲目选择。

Xai团队在现场演示期间展示了Grok 3的基准测试。图片:xai

Grok-3的专门“推理β”变体,在测试时间采用内部经过经过经过经过经过经过经过经过管理的处理和其他计算,将数学分数提高了甚至更高 - 与其他表现最好的型号相比,Aime 2025基准的93%是93%该排名低于87%。

有趣的是,由于训练时间更长,一个称为Grok-3 Mini推理Beta的较小版本有时会优于其较大的兄弟姐妹。

换句话说,一旦获得可比的培训时间,全尺寸的Grok-3仍具有改进的空间,考虑到其更大的参数计数,这似乎很有希望。

但是,当Xai搬家展示Grok-3的能力现场时,演讲感觉更像是一款追赶游戏,而不是创新。该团队展示了解决物理问题和从头开始编写游戏代码的模型 - 令人印象深刻的壮举,Chatgpt,Claude和Google的Gemini不久前就掌握了。 

新工具,旧技巧

他们还引入了DeepSearch,这是一家研究代理,就像OpenAI和Google的类似工具一样,它搜寻网络并为给定主题生成广泛的报告。

X Premium Plus订户可以立即访问Grok-3,但是最强大的版本和更新的版本通常将生活在专用的独立应用程序或Grok.com上。

语音互动,类似于Openai的“高级语音modE”将在接下来的几周内到达,马斯克强调这并不是简单的文本到语音,而是一种真正具有自然,表现力的语音的真正的AI语音模型。 

开发人员将在接下来的几周内获得API访问,以及音频转录功能,使Grok-3成为第三方AI驱动应用程序的强大工具。

在展示了由Grok生成的俄罗斯方块游戏的示例之后,Xai还揭示了AI Gaming Studio的计划,该计划将使开发人员构建由Grok-3提供支持的游戏。 

目前,该模型正在慢慢推出。到写作时,解密尚未获得该模型的访问权限,但是一些发烧友已经尝试过,到目前为止对结果感到满意。

计算机科学家Lex Friedman是AI空间中最响亮的声音之一,称赞Grok-3的能力。

其他人将其与领先的市场竞争对手进行了比较。

前Openai联合创始人Andrej Karpathy写道:“ Grok 3 的思维感觉在Openai最强大的模型(O1-Pro,200美元/月)的最先进的领域中,并且比DeepSeek-R1和Gemini 2.0 Flash Thinking略好。”广泛邮政在X上。

X用户Penny2x共享了一个与Grok-3构建的游戏,该游戏类似于Mario Bros。 

格罗克(Grok)理解说明和改进几次迭代的能力给他们留下了深刻的印象。 

“我只是一直在要求调整,它一直在一个可以放在桌面上运行的文件中吐出游戏。”他写了邮政在X上。“这是不可思议的。我们生活在未来。现在每个人都是开发人员。”

该游戏可在谢谢Doge.

该公司还确认了一旦Grok-3完全成熟并正确运行的计划,预计将在未来几个月的某个时候进行。 

Xai先前在Grok-2之后开放了模型,继续其释放较旧版本以刺激创新的趋势 - 尽管Grok-2落后于顶级模型。

目前,Grok-3似乎擅长匹配最佳的AI模型已经可以做的事情。 

当Xai在未来几周内推出其承诺的语音功能,游戏工具和API访问时,将进行真正的测试。现在,球在Openai法院,将发布GPT-4.5很快.

编辑塞巴斯蒂安·辛克莱(Sebastian Sinclair)

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com