DeepSeek和Kimi首轮就被淘汰,这项大模型对抗赛说明了什么?

发布时间:2025-08-12 06:02  浏览量:1

一个大模型比赛,谷歌办的,叫“首届大模型对抗赛”,让AI下国际象棋。比赛还没开始,聊的人就很多,等8月5号真的开打了,大家看AI下棋的水平,可能觉得有点不对劲。两个中国的模型,DeepSeek-R1和KimiK2Instruct,第一轮就输了,但这个事情背后,好像说明了所有通用大模型在推理这件事上,都有问题。

比赛里的大模型,会犯一些错。这些错误,看起来很低级。比如有个叫KimiK2Instruct的模型,它在一盘棋里,想用自己的白马去吃对方的黑后。问题是…。。马不能那么走。这个棋盘上的位置,马是走不到的。人告诉它,你这步棋不对,是“非法移动”!它不听,还觉得这是最好的选择,一直坚持要那么走。

这个比赛把大模型分成两组,一对一下棋。为了让大模型能下棋,谷歌的DeepMind团队专门做了个技术接口。这个团队很出名,就是2017年用AlphaGo打败人类棋手的那个。有了这个接口,大模型才能“看懂”棋盘上有什么棋子,棋子都在什么位置。不然,它们对着棋盘就是一堆数据,啥也干不了。

这次来参加比赛的模型一共有8个。有OpenAI的o4-mini和o3,还有谷歌自己的Gemini2。5Pro和Gemini2。5Flash。Anthropic公司也派出了ClaudeOpus4,马斯克的xA公司拿出了Grok4。中国的模型有两个,一个是DeepSeek-R1,另一个是KimiK2Instruct。

Kimi这个模型,有时候连棋子在哪都分不清楚。在另一局棋里,它就犯了这种错误,连棋子的坐标都识别错了。这说明它理解棋盘的能力有缺陷。虽然它开局的时候,总能走一些人类棋手常用的经典开局,说明它学过国际象棋的基本知识。可是一旦棋盘上的子变多了,局面一乱,它就不行了。

比赛结果出来了,第一轮的四组对决,输赢分明。赢家都是用4-0的比分拿下的,也就是说,输家一盘都没赢。

获胜方全部都取得了4-0的全胜战绩。

其实不光是Kimi,所有参加比赛的大模型,在开局之后,棋都下得不好。各种看不懂的“昏招”一个接一个。专业的国际象棋网站Chess。com看了比赛,觉得只有一个模型稍微好一点,就是Grok4。它能比较好地发现并吃掉对方没保护的棋子,这在其他模型身上很少见。

另一个中国模型DeepSeek-R1,也下出了一步让人看不懂的棋。当时它用白棋,它把自己的白皇后,移动到了c3这个位置。从它的推理过程看,它觉得对方的黑皇后,正在威胁自己c2位置的兵。所以它想用白皇后去c3,把黑皇后逼走,然后用d那一列的车去威胁黑色的王。

这个想法听起来好像有点道理?到了下一步,它自己的白棋,好像把前面想的什么全都忘了。它明明还有别的棋可以走,却偏偏用自己的王,把那辆准备攻击的车给挡住了。路线一挡,前面的计划就全泡汤了,白白地把自己的皇后给弄丢了。一个很重要的棋子,就这么没了。

有懂下棋的人说,那个局面更好的走法是白皇后去D4吃掉对方的兵。这一步不光能“将军”,还能把自己那辆车的攻击路线给让出来,一举两得。DeepSeek-R1这么走,说明它脑子里只能想个一两步,想不了更多情况,也没有整体的局面概念。它只看到了兵的危险,没看到全局。

这个比赛叫“首届大模型对抗赛”可能名字不太对。它只测试了下国际象棋这一个能力,又不能说明一个模型的全部水平。而且要说“对抗”,早就有一个叫LMArena的平台了,那上面也是各种模型在对战,名气也大。所以谷歌办这个比赛,图什么呢?

他们是想搞点别的——谷歌可能是想借这个比赛,给自己旗下的数据科学平台Kaggle造势。Kaggle平台现在有DeepMind的技术支持,要搞大语言模型的比赛。最终的目的,可能是想建立一套新的、权威的评价标准。以后谁说了算?可能就是制定标准的人说了算。

对中国大模型的选择,很多人有疑问。比如KimiK2Instruct,它就不是一个专门为推理设计的模型,让它来下棋,这不公平,它肯定吃亏。还有DeepSeek-R1,这都是半年前发布的模型了,算是个“老家伙”。用这两个模型来比赛,不管它们下成什么样,都不能说这就是中国大模型的真实情况。

比赛的官方网站上,也有人问了这些问题。主办方回了话,说这只是一个开始嘛…。。别着急!以后会把更多的中国模型加进来的。这种说法,算是一种解释。但当前的比赛,确实无法反映出全貌,只能看个热闹。马斯克就挺高兴,他马上出来说,下棋对Grok4来说只是个“副作用”,他们压根就没为了下棋去训练它。

那么,这个比赛展现出来的东西,对整个AI行业有什么用?它让我们看清了一个事实——就算到了2025年,最新的那些推理大模型,在解决一个具体问题的时候,也还是不行。它们不仅比不上很多年前的AlphaGo,甚至还不如一个学过一些基础训练的人类棋手。

这说明什么?这说明光靠一个什么都能干的通用大模型,就想把它直接用在某个具体的场景里,是不行的。这中间还有很多工作要做。这也意味着,那些做应用开发、想把AI技术落地的人,还有很多机会。通用模型留下的这些“缺陷”,就是他们的发挥空间。