和 DeepSeek 掰掰手腕?这个国产 AI 大模型开源起飞
发布时间:2025-06-22 19:43 浏览量:1
国产大模型 MiniMax-M1 开源了,性能比肩 DeepSeek。
中国又出了一个登顶全球榜单的开源 AI 大模型。
MiniMax-M1 是世界上首个开放权重、大规模混合注意力的推理模型,已成为全球开源 TOP2 的 AI 大模型。
补充:开放权重指的是开发者公开了训练好的权重文件,可下载运行模型进行推理或者微调。
M1 支持的上下文窗口拉长到 1M Token ,直接吞下一本《三体》,是 DeepSeek-R1 128K 的 8 倍,长文本理解能力前所未有。
官方刚刚发布开源,海外热议特高,老外直呼:另一个英伟达暴跌?
刚刚开源两天,就已经在 GitHub 上斩获 1.7K Star。
逛逛第一时间研读了这个开源技术的报告,相当给劲儿。简明扼要的帮你梳理 M1 开源模型牛在哪儿。
开源地址:https://github.com/MiniMax-AI/MiniMax-M101
开源亮点
开源模型 MiniMax-M1-80K 直接把上下文窗口拉到了 1M Token(≈ 70万~100万汉字),DeepSeek R1 才支持 128K。
原来 128K 的长度,顶多支持中篇小说、技术文档这种数据的输入,如果是拉长到 1M Token 输入,可想象的场景就很广阔了。
可以丢进去整本数据,可以全书记忆,跨章节分析。甚至一个大型的代码库,全局理解架构,定位深层 Bug。
在 SWE-Bench 测试中, MiniMax-M1 修复需要修改多文件的复杂 Bug 时,成功率比 128K 模型高 21%(因能同时查看相关模块)。
同时 MiniMax-M1 支持 80K 的生成长度,这样就允许模型进行超长思维链的分析了。
针对一个问题就能拆解的很仔细,得出的结论更准确:问题分析 → 子问题分解 → 多轮验证 → 自我修正。
② 成本极低支持这么长上下文的推理模型,仅需 3 周 在 512 张 H800 GPU 上训练完成的。强化学习训练成本大概是 53W+ 美元,这已经是目前非常低廉的成本。
能做到如此低的成本,不是靠堆硬件达成的,而是依赖高效的算法、架构系统设计,把硬件利用率压榨到了极致,省掉了大量的无效计算。
基于如此的高效的训练策略,拥有 456B 总参数的 MoE 模型完整训练只需要 3 周。
而且在生成 10W Token 时候,MiniMax-M1 的计算了仅仅是 DeepSeek R1 的 25%。
MiniMax 是一个具有混合专家(MoE)架构和闪电注意力(Lightning Attention)的推理模型,基于之前提到过的 MiniMax-Text-01 模型开发。
闪电注意力机制是 M1 的核心创新,是一种基于线性注意力变体的高效 I/O 感知实现,它显著降低了计算复杂度。
每 1 层标准 Attention + 7 层 Lightning Attention ,平衡精度与效率。既能捕捉局部特征,又能高效处理长程依赖。
而且创新性的提出了 CISPO (Clipped IS-weight Policy Optimization)算法,针对传统 PPO/GRPO 在长文本 RL 中的痛点(如关键低概率Token被剪裁导致训练不稳定或失败),CISPO 改为剪裁重要性采样权重(IS weight),保留所有Token的梯度贡献。
这显著提升了 RL 效率和稳定性,在实验中比 DAPO 快 2 倍。
备注:GRPO 由 DeepSeek 提出,DAPO 由清华和字节 Seed 团队联合推出。
④ 开放权重你可以前往 HuggingFace 下载 M1 模型的权重(.safetensors 文件)。使用这些权重,可进行运行推理或进行微调。
地址:https://huggingface.co/MiniMaxAI/MiniMax-M1-80k技术报告:https://arxiv.org/abs/2506.1358502
开源模型表现
① 基准测试在广泛的基准测试(数学、编程、推理知识、软件工程、长上下文、工具使用、事实性、通用助手)上
MiniMax-M1-80k 与当时顶尖的开放权重模型 DeepSeek-R1-0528 和 Qwen3-235B 相当或更优。
可以看到在软件工程 (SWE-bench Verified): 显著优于除 DeepSeek-R1-0528 外的其他开放模型(55.6%/56.0%),证明了其执行环境 RL 的有效性。
长上下文理解 (OpenAI-MRCR, LongBench-v2): 碾压性优于所有开放权重模型,甚至超越 OpenAI o3 和 Claude 4 Opus,全球排名第二,仅次于 Gemini 2.5 Pro。这是 1M 上下文能力的直接体现。
② 代理工具使用代理工具使用 (TAU-Bench): MiniMax-M1-40k 已超越所有开源模型和 Gemini 2.5 Pro。
MiniMax-M1-80k 在大多数任务(尤其是复杂数学和编码)上持续优于 MiniMax-M1-40k,实证了扩展测试时计算(生成长度)的价值。
MiniMax-M1 肯定能成为 Agent 时代的优秀基座模型,超长上下文窗口的特性,使得 M1 记忆完整工作流:用户指令+工具输出+历史记录+文档库(如航空订票任务需加载30K规则+50K实时数据)
因为其特长的输出,能进行长链路的思考,支持 14步工具调用+多轮验证,非常稳定。
除了打榜指标,实际上手测试是什么样呢?
03
你可以直接通过如下两个地址体验到最新的 MiniMax-M1 模型:
体验平台:https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1国内访问:https://chat.minimaxi.com/下面是访问体验平台,MiniMax 官方放出来的几个 Demo:
生成一个迷宫生成器和路径寻找可视化模拟,真的泰裤辣:
实现炫酷的动态粒子背景效果:
实现粒子点击爆炸效果:
问它先有鸡还是先有蛋?
MiniMax 会先进行推理,揣摩我的意图。如果给出的问题过于复杂的话,还可以分步骤分析、检索知识,给出详细答案。
因为 M1 长上下文窗口和思维链的特性,作为 Agent 基座模型能展现强大的能力。
比如我把《人类简史》共 450 页的 PDF 丢给 MiniMax,并且询问这本书中靠后章节的一个细节:谁成了西班牙独立和勇气的象征?
等了 1min:Minimax 会自动记忆解析全文 PDF,针对我的问题进行拆解分析。
最后交付答案:努曼西亚成为西班牙独立和勇气象征。 牛的。
大家可以使用上面的链接,自己去亲自体验 Minimax-M1 模型的效果。
海外反响也相当热烈,这就是跻身了全球前 2 的开源大模型的威力?