用50万刀追平世界第一,MiniMax的新模型是怎么做到的?
发布时间:2025-06-21 00:52 浏览量:1
要说编程能力,有的模型就不太行了,我让它做一个模拟多米诺骨牌的html文件,要求很简单:
1。 点击并拖动鼠标可以在画布上创建一排多米诺骨牌。
2。 松开鼠标后,最后一枚骨牌会被推倒,引发连锁反应。
3。 点击屏幕底部的“RESET“按钮可以清空画布,重新开始。
结果MiniMax这边,整出来的东西纯粹不是多米诺,这是给大哥大嫂磕了个响头。
再看看优等生Gemini,人家直接大手一挥,做出来一个完美的程序。
DeepSeek这边,界面看着挺酷,就是感觉代码有点投机取巧。根本没有感受到碰撞,纯粹是让多米诺自己躺平了。
虽然编程有进步空间,但在别的地方,MiniMax又能把其它模型甩在身后。比如翻译文献,我随便在Arxiv上找了篇文章,专挑那种看不懂的、公式多的。
我把文献分别丢给MiniMax、DeepSeek、Gemini,让它们保留格式翻译文章。
咱来看看MiniMax的结果:排版看起来就很清爽,英文被翻译成了中文,但公式的位置完全没变。
甚至,还能把图附在翻译里!虽然内容不是百分百正确,但看了就让人心情愉悦,起码看文献的时候,窗口不用切来切去了。
DeepSeek这边,其实也还不错,但正文里的图片它就附不上来了。
Gemini这边,排版甚至有点灾难。以后大家读文献用MiniMax,应该又能提升一波效率了。
说到这,可能有人好奇,这个MiniMax是何方神圣?
就在昨天凌晨,国内AI圈突然有了动静:MiniMax宣布,开源他们的首个推理模型MiniMax-M1。
从跑分图来看,其他方面算是中规中矩。
但MRCR这项测试,也就是上下文长度测试,表现出了惊人的统治力,跟其他开源模型拉开了一大截,只比Gemini 2。5 Pro差一点。
这个测试可不简单。
以前,要测试模型的上下文长度,用的招数叫“大海捞针”。就是往一本书的文本里塞一条特殊的信息,比如“差评前沿部牛大了”。然后把整本书喂给AI,再问它,看它记不记得住。
现在这个测试已经不够用了,升级版叫MRCR。
如果说前面那个叫大海捞针,那MRCR就是捞4根针,还要研究出4根针各自的联系。这不仅考验它能不能在信息海洋里捞到针,还要看它能不能在捞针的时候不被别的信息冲昏头脑,非常难。
我也简单做了个测试。我下载了个txt版本的电子书,《白鲸记》,大约20万个单词。然后在里面偷偷加了句话:世超吃了生蚝后掉进了泥里。
然后我把书丢给MiniMax,问它我的问题,它的回答言简意赅。不错,有点水平。
Gemini呢,更厉害,精准说出了这句话所在的位置,第135章,而且速度也更快。甚至还识别出这句话是我自己加上去的,因为它说和上下文没有关联。不愧是第一名。
但,我丢给DeepSeek,它说它根本读不完。只能说上下文长度这块,MiniMax确实能算顶级。
它为什么这么厉害?
MiniMax用了一种叫“闪电注意力”的机制。这是一种优化版,简单说就是让模型在处理数据时,需要读写的次数更少,因此大大提升了模型的效率,“闪电”这名字当然也是这么来的。
MiniMax-M1的RL训练框架上也进行了创新。
我们经常在推理模型里看到“嗯”、“等等”、“啊哈”这样的词,感觉它们没啥用,但它们对模型训练非常重要。可一些旧的算法在训练过程中,也觉得它们没用,所以很容易忽略它们。
所以MiniMax提出了一种叫CISPO的新算法。解决方法是,稍微调低一点这些词的“影响力”,这样既能让AI学到关键的推理思路,又不会因为这些语气词而干扰整个训练过程。从论文来看,这同样提高了模型的训练速度。
“据说,强化学习阶段的算力成本仅有50多万美元。“
最近国内的AI大模型圈,确实有点安静了。万众瞩目的DeepSeek-R2,除了半真半假的爆料以外,没有一点动静。去年打得你来我往的AI六小虎,今年好像也蔫了。虽说也有发布,但确实没什么特别让人惊艳的产品。
MiniMax这次发布,的确还在搞自己的新东西。前一阵还发了自己的声音模型,效果也很不错,有以假乱真之势。
最后提一句,MiniMax在发布M1推理模型的还宣布了为期五天的连更计划,也就是说,这周每天晚上都能享受到一款新模型。