AI独角兽MiniMax迎来“主场时刻”

发布时间:2025-06-24 14:29  浏览量:2

中经记者 李玉洋 上海报道

6月23日,随着语音模型Speech-02音色设计(Voice Design)功能的推出,上海AI独角兽MiniMax的“技术发布周”正式画上了圆点。

《中国经营报》记者注意到,从6月16日起,MiniMax陆续在工作日发布推理模型MiniMax-M1、视频模型Hailuo-02、主打“靠谱”的智能体MiniMax Agent、视频创意助手Hailuo Agent以及音色设计Voice Design,可见该公司已在基座模型、多模态技术和通用智能体Agent等领域实现巨大突破。

而就在“技术发布周”期间,市场上传出MiniMax正考虑在香港IPO的消息。对此,MiniMax方面表示暂不评论,“没有更多信息”。

分析人士指出,MiniMax的创新之路为全球AI发展提供了第二条道路——面对外部的算力限制和技术封锁,MiniMax没有选择跟随和模仿,而是坚定地走“自主创新”这条路,即从底层基础模型优化,到开创性的线性注意力混合架构,再到CISPO(Clipped Importance Sampling Policy Optimization)和NCR(Noise-aware Compute Redistribution)等算法与架构的持续迭代,MiniMax这种“倒逼出来的创新能力”,证明了通过算法和架构的深度优化,完全可以打破“算力—资本”的壁垒。

放大招:开源推理模型MiniMax-M1和新一代视频生成模型Hailuo 02

据介绍,MiniMax以其独特的“闪电注意力”(Lightning Attention)混合架构与创新性的CISPO算法,实现了业内最高的100万上下文的输入与业内最长的8万Token的推理输出,同时还大幅提升计算效率。

技术报告显示,在进行8万Token深度推理时,MiniMax M1所需算力仅为同赛道的DeepSeek R1的约30%。在最新的Artificial Analysis Intelligence Index榜单中,MiniMax M1位列全球开源模型第二名,仅次于DeepSeek-R1-0528。

在MiniMax方面看来,更快的收敛意味着更少的训练时间和资源消耗。记者注意到,由于DeepSeek R1、OpenAI o1等推理模型带来了新的Post-Training Scaling law,强化学习(Reinforcement Learning)成为大语言模型能力提升的新引擎。

这几乎已成为行业共识。而在强化学习方面,MiniMax研究团队开发了一种名为CISPO的新算法。得益于CISPO的高效,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时3周,成本仅为53.5万美元。

MiniMax官方表示,这一成本“比最初的预期少了一个数量级”。MiniMax-M1发布后在海外引起了开发者的广泛探讨,比如社交平台X知名AI博主MinChoi称,MiniMax-M1可以说集Manus、Deep Research、计算机技能和可爱于一体,还展出了自己用MiniMax-M1做的10个有趣案例。

美国知名科技媒体VentureBeat称其为当前开源模型中极具代表性的高性价比大模型,而科技媒体The Decoder则将其性能对标Google Gemini 2.5 Pro。

在M1搅动语言模型市场的另一方面,MiniMax还在多模态领域投下一颗更具视觉冲击力的“炸弹”——新一代视频生成模型Hailuo 02,在对物理世界规律的理解和表现上,该模型可直接叫板Veo3等国际顶尖模型。

据介绍,Hailuo 02的核心突破在于创新的NCR架构,将模型参数和训练数据量分别提升3倍和4倍的同时,实现了2.5倍的效率飞跃。

在国际权威测评榜单Artificial Analysis视频竞技场中,Hailuo 02一经发布便拿下全球第2的宝座,领先于Google Veo3和快手可灵(Kling)。此外,受益于模型架构创新,Hailuo 02模型官方价格显著低于Runway、可灵等国内外同行,实现行业底价。

开源策略:推动全球AI平权

如果说M1和Hailuo 02是MiniMax产品的“发动机”和“眼睛”,那么同步官宣的通用智能体产品——MiniMax Agent,则是该公司对“AI能力”的深刻思考和交付回答。

MiniMax Agent是可以完成长程复杂任务(Long Horizon Complex Tasks)的通用智能体,能多步规划出专家级解决方案、灵活拆解任务需求,并执行多个子任务从而交付最终结果。

无论是“新世纪福音战士介绍”的深度解析,还是“卢浮宫”的艺术导览,MiniMax Agent制作的PPT,排版灵活、视觉美观,能够将复杂的信息进行清晰的可视化呈现,而非简单地套用模板。

这些案例仅是MiniMax Agent交付能力的冰山一角。据悉在MiniMax 内部,该产品已经被使用了两个月,逐渐成为超50%的内部员工日常使用的产品。

针对视频创作领域,MiniMax还推出了国内首个能实现“成片直出”的视频创作智能体Hailuo Video Agent,该Agent可以自动分析、构思并生成具有专业水准、富有观看价值的完整视频内容。

为了用AI降低创作门槛、保证视频专业级别质量,MiniMax在视频Agent中实现了“自然语言驱动全局、全流程工具集和创作过程可视化”的技术创新,在AI更大程度地提升普通用户创作自由度的同时,让人与AI更好地进行双向协同。

在自然语言驱动全局上,MiniMax抛弃了传统工作流+节点的工具模式,通过LLM语言模型,AI自动拆解任务并调用最佳工具链,支持用户在自然语言描述中构建完整视频。

在全流程工具集上,MiniMax打造出视频构思、资料收集、分镜制作、剪辑、配音等视频制作全流程工具集,并通过Agent模型在不同阶段实现自动调用,根据创作阶段智能匹配最优方案。

在创作过程可视化上,MiniMax则通过Agent思维链实时展示AI工作逻辑,为自定义编辑提供可视窗口与操作空间。

MiniMax方面还透露,Hailuo Video Agent将通过三阶段进化,目前已实现第一阶段能力,第二阶段的视频Agent创作工具将于今年夏季面世。

而在其强项的语音模型上,MiniMax此次还发布了语音模型Speech 02上的一个功能更新——Voice Design音色设计。用户可以通过自然语言来描述自己心中所想的音色,实现对多个维度的精准控制,甚至生成世界上不存在的音色。

据了解,通过Voice Design的方式生成声音,MiniMax解决了语音合成模型行业的两个挑战:精准匹配细分场景下的多样需求,无须复刻他人声音即可无风险实现脑海中音色表达。

分析人士还认为,MiniMax所采取的开源策略更具深意。在全球AI巨头纷纷转向闭源以构建技术壁垒的当下,MiniMax选择向世界开放其大语言模型的核心能力,这不仅是对技术封锁的有力反击,更彰显了中国新一代AI企业的技术自信和开放胸怀。此举将大大推动全球AI平权,为开发者提供更多选择,并倒逼整个行业回归到更健康、更具创造力的技术和价值竞争中。