GPT-5首周观察:智能更高,但少了点“人情味儿”?
发布时间:2025-08-12 19:34 浏览量:2
中国战略新兴产业融媒体记者 赵紫宸
当地时间8月7日,OpenAI正式发布新一代通用模型GPT-5,并称其可提供“博士级别”的专业知识。发布前,OpenAI联合创始人兼首席执行官山姆·奥特曼(Sam Altman)表示,“在任何时代,像GPT-5这样的东西几乎都不可想象”,并称新模型“更智能、更快速、更实用”,标志着ChatGPT进入新阶段。
与此同时,ChatGPT端默认以GPT-5取代并一度下线了GPT-4o的选择项,引发对体验变化的广泛讨论;在Reddit与X等平台上,部分用户反馈新模型的人机交互“温度”明显下降,“少了些人味儿”,并呼吁“还我GPT-4o”。对此,OpenAI随后宣布为Plus与Team用户重新开放GPT-4o,并在网页版设置中提供“显示旧版模型”入口;同时预告将推出GPT-5 mini与GPT-5 Thinking。针对“首日体验不佳”的质疑,山姆·奥特曼解释称,上线当日路由组件(自动路由器,autoswitcher)出现异常。
面对用户的不满,山姆·奥特曼在X平台发文坦言:“我们确实低估了人们对GPT-4o某些特质的喜爱程度,即便GPT-5在大多数方面表现更优。”从行业视角看,这次“逆风首秀”把问题摆上台面:通用AI在提升能力的同时,需在“更聪明”和“更合拍”之间找到平衡;最终的检验标准不仅仅在于基准测试成绩,更在于用户是否愿意长期使用。
“统一系统”到“内置思考”
GPT-5改了哪些底层设定?
与以往模型架构相比,OpenAI此次将GPT-5定位为“一体化系统”——一个能够根据任务复杂度自动切换工作模式的智能平台。在这个系统中,模型可以在“快速回应”和“更长时间思考”之间动态切换,且无需用户手动调整。OpenAI官网表示,这是一个统一的系统,能够判断何时应快速回应,何时需要更多思考时间,在编程、数学、写作、健康和视觉等能力上都有显著进步,同时降低了“幻觉”发生的几率。
这种“内嵌思考”的系统,是OpenAI试图将模型从“多个工具箱”整合成“一个统一入口”的一次转变尝试。在ChatGPT端,用户看到的只是一个“GPT-5”入口,但实际上,系统会在任务变复杂或用户发出“认真思考”之类的请求时,自动调用推理模式。同时,在达到使用上限后,系统会自动降级至轻量级模型,以保证持续可用性。
山姆·奥特曼曾坦言,他认为之前的模型选择器界面“非常混乱”,现在通过自动路由机制代替手动选择,是为了降低普通用户的使用门槛。ChatGPT产品负责人 Nick Turley也表示:“这个模型的氛围非常好。我认为人们一定会感受到这一点,尤其是那些从未花时间思考过模型的普通人。”
开发者表示,OpenAI在API中提供三档规格,GPT-5、GPT-5 mini、GPT-5 nano,分别针对不同的计算资源、延迟容忍度和成本要求。需要注意的是,ChatGPT中的“GPT-5”并不等于API中的某一个模型,而是多个子模型与自动路由组成的整体系统。
在安全与质量方面,OpenAI在系统说明中着重强调了以下三点:其一是更少的事实性错误与更稳健的指令遵循;其二是在不确定时更克制,更愿意“承认不知道”;其三是引入更保守的“安全补全”。与以往“直接拒绝”违规提示不同,GPT-5将优先在安全准则内给出尽可能有用的替代性回答,或至少清楚解释无法提供帮助的原因。
同时,OpenAI 在 GPT-5 中新增四种“人格预设”,让用户可在 Cynic(愤世嫉俗者)、Robot(机器人)、Listener(倾听者)和 Nerd(知识宅)四种风格间切换,以获得不同的语气与互动体验。
然而,“统一系统”的表现也依赖于背后的路由机制是否稳定。GPT-5发布当天的反响似乎不及预期。OpenAI承认,在发布当天出现的“变笨”体验,主要是因为自动路由器短时出现异常,问题不在模型本身。为了应对用户反弹,OpenAI很快重新上线了GPT-4o供Plus与Team用户选择,并在网页版设置中增加了“显示旧版模型”选项,方便用户切换体验。
“聪明”之外的取舍
GPT-5的人机交互争议
用户体验差异也是此次升级的最先引发的一个焦点。根据记者近日观察以及媒体和社区的反馈,不少用户认为GPT-5相比GPT-4o显得更“正经”,缺少亲切感。不少用户承认,GPT-5在逻辑严谨性、事实准确率和指令执行力上更胜一筹,但同时感觉它“少了点人情味儿”。在Reddit与X的帖子中,“更正式”“像个书呆子”“不爱开玩笑”等形容频频出现,而对比之下,GPT-4o的回答被描述为更有“临场感”和“情绪色彩”。
在业内人士看来,这种风格转向并非偶然,而是OpenAI有意为之的策略调整。《金融时报》评论称,GPT-5更像是一场“循序渐进的升级”,核心着力点在于推理能力、代码生成和减少“幻觉”等硬指标,而不是一次彻底改变交互体验的颠覆式创新。这让它在严肃任务中更显稳健,但同时也淡化了某些轻松、随性的交流氛围。
西南证券研究院计算机首席分析师王湘杰认为,用户感受到的情感落差,可能与模型版本或优化指令的调整有关,这些在技术上都可以随时修正。他指出,本次迭代中,GPT-5在文本创作的情感表达上有所收敛,优化重心更多放在专业性提升上,这可能是OpenAI的阶段性策略。但从发展路径来看,“人格感”作为OpenAI的核心追求,未来版本或会重新融合这种陪伴感。
上述种种判断与OpenAI高层的说法在一定程度上呼应。OpenAI首席运营官布拉德·莱特卡普(Brad Lightcap)在接受媒体采访时表示:“GPT-5的好处是将模型选择的步骤都抽象化,由系统做决定。无论是否启用推理模式,都能得到更好的答案,因为它本质上是一个更智能的模型。”
在这种策略背后,似乎可以看出,OpenAI正试图让更多用户以最简单的方式获得新模型的核心能力。布拉德·莱特卡普在采访中进一步解释称,如果仔细观察免费用户的使用习惯,会发现他们大多并未真正体验过推理模型的优势——多数人在用的还是GPT-4.0,而且以快速、回合制的问答为主,几乎像在使用搜索引擎一样。
然而,行业观察人士表示,OpenAI似乎低估了用户对熟悉体验的依赖。美国《Inc.杂志》技术专栏的专家杰森·艾登(Jason Aten)表示,尽管这些模型本质上是运行在服务器上的代码,但对数百万人而言,它们已成为一种更私人化的存在——这种关系或许不同于人与人之间,但同样真实。也因此,GPT-4o被移除的那一刻,用户反应尤为强烈。在Reddit的相关帖子中,有用户直言:“当你重新训练一个模型,抹去它过去的行为和个性时是令人沮丧的。”
更令部分用户不满的,是切换过程的突然:前一天还能自由选择模型,第二天这一选项就完全消失了。这尤其对创作类用户而言可能是一场“灾难”,这不仅打乱了工作流程,甚至让正在进行的角色发展、长篇对话或特定场景构建直接断档。在他们看来,这不单纯是对“旧版本的怀旧”,而是失去了某些以极为具体、不可替代方式存在的功能和体验。
这种现象也对通用AI的长期竞争带来启示:在技术参数之外,用户的情感接受度与留存意愿也是评估中的重要一环。换句话说,未来的迭代不只是“更聪明”或“更严谨”,还要尽量在不同场景中为用户找到“刚刚好的温度”。
值得一提的是,在用户对AI的情感依赖越来越深的背景下,山姆·奥特曼也提醒到,不能把ChatGPT当作心理咨询师,因为这会带来隐私风险。ChatGPT本身也会在用户长时间交互后提示“适当休息”。已有多项研究指出,过度依赖AI可能削弱人的批判性思维,甚至影响大脑认知结构,并加剧孤独感。这也表明,AI产品在强调智能和效率的同时,仍需要设定清晰的边界和节奏,为使用者留出足够的思考空间。
大模型的多线作战
算得准,也要用得久
回顾上述种种讨论,GPT5的发布带来了一个值得关注的信号——在通用AI的竞争中,除了“比智力”这一最硬核的能力指标外,用户对“交互体验”和“供给弹性”等更灵活的指标关注度也在上升。
尽管GPT-5 带来了更强的推理能力和更低的“幻觉”率,但专家普遍认为,它更像一次“能力进化”,并非彻底颠覆。《麻省理工科技评论》指出,GPT-5是一个更精心打磨的产品,而非范式跃迁。这与外界对“接近AGI”的期待还有一定的落差。
>>领先语言模型在ARC-AGI 基准测试中的性能与成本对比,包括 Grok 4、GPT-5 及小型模型版本在 ARC-AGI-1 测试中的结果。图片来源:ARC Prize
从竞争格局来看,GPT-5也并未一骑绝尘。在被广泛视为通用推理能力风向标的ARC(Abstraction and Reasoning Corpus)系列测试中,xAI在上个月推出的Grok 4模型在多个子项中同样展现出强劲实力。8月7日的最新数据显示,Grok 4(Thinking版)在更高难度的ARC-AGI-2测试中达到约16%的准确率,领先于GPT-5(High版)的9.9%;不过每项任务成本高达2–4美元,而GPT-5为0.73美元。在较轻的ARC-AGI-1测试中,两者准确率分别为68%与65.7%,但GPT-5仅耗费0.51美元,性价比优势更为明显。
值得一提的是,OpenAI通过推出Mini与Nano版本,进一步细化性能与成本的覆盖面,在ARC测试中分别以更低成本完成中低强度任务,体现了多版本协同的产品思路。这也表明,大模型竞争不能再拘泥于单一性能比拼,“推理能力-使用成本-任务适配”的多维权衡也是至关重要的。
面对GPT-5的压力,其他主要竞争对手也加快了迭代与生态布局的节奏。Anthropic在GPT-5发布前两天推出了Claude Opus 4.1,据了解,新模型强调了真实编码与多步骤任务的提升,并在SWE-bench Verified上公布74.5%的成绩,旨在通过更高频的前进步伐来对冲OpenAI新品带来的关注度与迁移意愿。同期,谷歌持续推进Gemini 2.5 与“Deep Think”等功能升级,强化推理能力并加深与自家日历、任务等应用的整合,同时还在8月6日宣布为美国、日本、印尼、韩国和巴西的18岁及以上学生提供 Google AI Pro 一年免费升级服务,进一步扩大其在年轻用户群体中的渗透率。
而阿里云的通义千问(Qwen)系列则突出混合推理模式和多模态能力,在本土场景中走了一条更具性价比和适配度的路线,并在长上下文处理、代理能力和多语言支持等方面也形成了一定优势。
>>企业级LLM API 按使用量划分的市场份额。图片来源:2025年Menlo Ventures
更显著的变化,还体现在近年来企业市场的结构性分化。与2023年时OpenAI一家独大的局面不同,Menlo Ventures近日发布的年中报告显示,Anthropic目前以32%的企业级使用份额居首,OpenAI为25%,Google为20%。这表明,企业用户在评估“生产环境可用性”与“总拥有成本”时,正在更仔细地进行模型选型和算力资源分配。产品的智能水平之外,“谁更可用”“谁更划算”已成为最终选择的重要考量因素。
说到底,通用AI的比拼不只是看测试成绩,更在于能否在长久使用中赢得用户信赖。除了持续提升能力,还需要在稳定性、交互体验和安全边界上做到可验证、可依赖。短期来看,统一入口和自动分配机制确实会让使用变得更简单;长期,则要在价格、生态、合规和安全性上展开全面竞争。最终能站稳脚跟的,未必是算得最准的那一个,而是能让用户愿意一直用下去的那一个。