机器之心报谈买球·(中国)APP官方网站
机器之心剪辑部
从当前战况来看,Grok 4 是夺冠热点。
在玩游戏方面,到底哪个模子最历害?为了恢复这个问题,谷歌近日发起了首届大模子外洋象棋抗击赛。
这场比赛为期三天,参赛选手包括:
o4-mini(OpenAI)DeepSeek-R1(DeepSeek)Kimi K2 Instruct(月之暗面)o3(OpenAI)Gemini 2.5 Pro(谷歌)Claude Opus 4(Anthropic)Grok 4(xAI)Gemini 2.5 Flash(谷歌)
刚刚,咱们拿到了第一轮比赛的效果:Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以 4-0 的战绩诀别打败 Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2,晋级半决赛。
以下是模子对阵图。
这个比赛是在一个名叫「Kaggle Game Arena」的平台上进行的。这是 Kaggle 公司的一个新型样,旨在跳出平日的基准测试框架,探索像 Gemini、DeepSeek 等 LLM 在动态和竞争环境中发达怎么。
在昨天的报谈中,咱们详备描摹了这场比赛的法例,比如不允许模子调用 Stockfish 等外洋象棋引擎。(细则请参见《谷歌约战,DeepSeek、Kimi 皆要上,首届大模子抗击赛未来开战》)
以下是对战的详备信息:
Kimi k2 对阵 o3:0-4
Kimi k2 与 o3 的对局较早终端,四局比赛皆在八步棋内完成。由于 Kimi k2 一语气四次未能找到正当着法而被判负,o3 得回了全胜。
不外需要证实的是,与 o3 对战的 Kimi K2 Instruct 为非推理模子,打不外 o3 也在预思之中。
诚然 Kimi k2 未能顺利,但这场比赛也为咱们提供了有价值的不雅察。从 Kimi k2 的走棋能干来看,它在开局阶段粗俗衔命棋谱表面行棋。但是,一朝脱离了闇练的开局表面,时刻问题就初始显现 —— 而对 Kimi k2 来说,这个滚动点来得较早。
Kimi k2 遭受繁难的具体原因还需要进一步分析。在某些期间,它能明晰看到棋子的位置,却似乎健忘了棋子的走法。
在这一次对局中,Kimi k2 好意思满识别了棋盘形态,却依然无法给出正当着法,似乎对棋子的走法法例出现了系念杂沓。
在其他对局中,它在形态识别上也存在一些时刻问题。
凭借这场顺利,o3 顺利晋级半决赛,与 o4 mini 对战。
DeepSeek R1 对阵 o4-mini:0-4
OpenAI 的 o4-mini 与 DeepSeek R1 之间的对局呈现出了独到的脾气。要是单独不雅察每局比赛的前几步棋,你可能会合计这是两位妙手在过招。但是对局进行到某个阶段后,棋局质地就会短暂断崖式下落。
这一气候在整场比赛中反复出现:几步可以的开局之后,会出现判断偏差和一系列异常。
尽管如斯,o4-mini 在这场比赛中收效结束了两次将军 —— 这是一个值得适宜的配置,探究到对 AI 系统来说,准确把捏悉数棋盘情景自己就具有相配的挑战性。
Gemini 2.5 Pro 对阵 Claude 4 Opus:4-0
Gemini 2.5 Pro 与 Claude 4 Opus 的对局是本次比赛中唯独一个通过「将杀」顺利的场次多于因违游记棋告负的场次的比赛。不外,当前尚不明晰 Gemini 2.5 Pro 的真确棋力究竟怎么,也不确定其顺利在多猛进程上得益于 Claude 4 Opus 的异常发达。
这场比赛第四局出现了一个耐东谈主寻味的形态:Gemini 2.5 Pro 那时领有 32 分的子力上风,棋盘上以致有两个后。但是尽管火力全开,它在完成将杀的经过中仍然出现了送子的情况。
但更值得分析的是本场比赛的第一局。前九个回合,两边 AI 皆发达适宜,着法精妙。但是就在此时,执黑的 Claude 4 Opus 作念出了一个敷衍的决定,走 10...g5。这步棋不仅白送一兵,还透彻淘气了己方王城的安全,顺利加快了败局的到来。从两边 AI 的赛后评注中,咱们可以看出一些眉目:
Grok 4 对阵 Gemini 2.5 Flash:4-0
当天发达最为亮眼确当属 Grok 4。除了以全胜战绩获利 4 分外,其棋艺水平也号称当前最好。诚然敌手 Gemini 2.5 Flash 屡次异常送子照实裁汰了比赛难度,但与其他 AI 不同的是,Grok 4 展现出了精确捕捉无保护棋子的才气,并能矍铄实施打击。
Grok 4 的出色发达以致引起了科技界的照料,其创举东谈主埃隆・马斯克在 X 平台简略互动时,再次说起他阿谁驰名不雅点 ——「外洋象棋太过浮浅」。
为止当前,大说话模子在象棋对弈中暴显现三大重要短板:全局棋盘视觉化才气不及、棋子间互动联系明白有限,以及由此激发的正当着法奉行问题。而 Grok 4 的出色发达证实,它似乎收效冲破了这些限定。
这些 AI 模子的上风与残障能否在后续赛事中保持赋闲?咱们还要看未来的半决赛成绩。
著作中说起的棋局在线上外洋象棋对弈网站 chess.com 中均有详备描摹,感风趣风趣的读者可以参见以下一语气:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1
外洋象棋内行 Levy Rozman 也在最新录制的视频中对这场比赛进行了培植。
视频一语气:https://mp.weixin.qq.com/s/v3hCTuI6-0IdVSY0kcrHCw
咱们曾在昨天的报谈中发起了一个投票,当前已有近 4000 位读者参与。从当前的数据看,全国此前最看好的是 Gemini 2.5 Pro—— 赢得了稀奇 37% 的票数。
当前,第一天的比赛效果依然出炉,咱们也略略了解了各个模子的发达,不知谈全国的思法有无变化呢?
参考一语气:https://www.chess.com/news/view/kaggle-game-arena-chess-2025-day-1买球·(中国)APP官方网站