驯服大模型幻觉!用7B小模型+RAG,提升用户满意度

发布时间:2025-06-28 13:00  浏览量:1

抖音作为日活数亿的平台来讲,要想满足用户体验可想而知具有多么大的挑战。在7月25-26日深圳举办的DA数智技术大会上,我们邀请了字节跳动算法专家蔡聪怀老师,他从事AI算法多年,在内容理解、体验智能化等业务场景有丰富的落地经验。届时他将分享大模型助力抖音用户体验智能化实践,围绕提升抖音用户体验,基于大模型建设体验信号识别、内容理解、原因诊断能力,方案上结合SFT、DPO、RAG等大模型技术在业务落地内容。这其中的落地难点就包括,如何利用大模型更前置的发现体验问题,大模型结果如何评估等等。

在正式演讲之前,我们采访了蔡聪怀老师,提前剧透一些技术细节。(对DA大会内容感兴趣的,可以直接进入会议官网查看。)

DataFun:您在演讲中提到抖音用户体验面临诸多挑战,能否结合具体场景(如视频推荐、评论互动等),说明传统算法方案的局限性?大模型为解决这些问题提供了哪些新的解决思路?

蔡聪怀:从视频、评论渠道感知体验信号时,会遇到复杂的多模态特征,比如视频标题、视频画面、用户画像信息、评论区内容。如果采用传统算法,往往需要收集大量数据来学习深度语义特征,从而保证体验信号识别的准召率,投入产出比不高。但是,大模型具有强大的语义理解能力和多模态处理能力,在零样本、少量样本情况下,也能达到不错的效果,帮助我们低成本的扩充视频、评论体验信号渠道。

DataFun:从腾讯到字节跳动,您在AI算法落地的经验中,哪些核心方法论被迁移到“大模型驱动体验智能化”这一新方向?过程中需要突破哪些思维或技术惯性?

蔡聪怀:在AI算法落地的经验中,问题定义、数据分析、模型选型、模型训练优化、结果评估、模型迭代等方法论都是通用的,可以迁移到这一新方向。在问题定义阶段,我觉得需要突破思维惯性,过去很多业务问题更多被转化成判别式的问题,在大模型的时代下,生成式任务也能得到很好的解决。

01

技术方案与落地细节

DataFun:在“体验信号识别”环节,如何通过大模型更前置地发现用户体验问题?例如,视频内容和评论数据的多模态信号融合是否有特定技术设计(如RAG的应用场景)?

蔡聪怀:体验信号有离线反馈、在线客服、举报这类强信号渠道,但是当用户通过这类渠道进线时,往往体验问题已经发生,问题发现太滞后。通过对用户的行为进行分析, 比如我们基于用户投稿视频的评论区进行语义分析,可以识别不合理的吸顶词,吸顶词的识别需要结合视频、评论等多模态信息,进而在用户进线反馈前下线不合理的吸顶词。同时,为了解决亿级别的投稿量识别,技术方案上采用传统模型、大模型的分层方案,并基于RAG技术提高大模型识别准确率。

DataFun:体验信号理解中提到的“质量分”和“语义观点”如何量化?大模型与传统评分模型的结合是互补还是替代关系?需要哪些数据标注与训练策略(如DPO优化偏好)?

蔡聪怀:我们可以定义一些业务最核心的指标来量化,并进行人工抽检评估,比如语义观点准确率、观点重复率、观点缺失率,质量分也类似。在量级不大的算法场景下,大模型在大部分场景可以替代传统模型,但是在量级太大的场景,方案上需要结合传统模型和大模型进行分层。训练策略上,主要采用全参数微调和强化微调,对应的数据标注包括类别标注和偏好对标注。

DataFun:根因分析环节中,大模型如何兼顾诊断准确性与可解释性?是否结合了知识图谱或因果推理技术?能否分享一个成功定位复杂体验问题的案例?

蔡聪怀:我们的根因分析场景,大模型主要通过结合业务数据来平衡诊断准确性和可解释性,比如结合用户画像数据、用户行为日志(点击、浏览)、A/B实验数据(实验描述、实验放量比例)、客户端发布信息等。根因分析场景主要分析引起异常反馈波动的原因,基本是A/B实验和客户端发布导致,所以根因分析可以建模成匹配问题。2025年初,有大量用户进线反馈“想要抖音火花标识”功能,我们基于大模型进行根因诊断,在短时间内就定位出是关系火花正式实验导致的。

DataFun:您在方案中提到了SFT、DPO、RAG等技术组合,这些技术如何适配抖音的业务特点?例如,模型轻量化、实时性要求或数据安全限制?

蔡聪怀:抖音作为日活数亿的平台,在做算法落地时需要在模型效果与部署成本间平衡。在SFT技术上, 我们通常使用7B模型基座进行微调,并结合蒸馏和量化技术,进一步降低计算资源消耗和提升模型效果。在SFT基础上,还会结合业务偏好数据进行定向优化,在摘要、语义观点场景都用结合DPO技术对齐优化。同时,会结合RAG检索官方知识库和业务规则输入到大模型,减少模型对海量知识的依赖。

02

评估与挑战

DataFun:大模型输出的结果(如体验问题诊断)存在较强主观性,如何设计科学的评估体系?是否引入用户调研、A/B测试等交叉验证手段?

蔡聪怀:大模型输出结果的评估目前对我们来说还是个挑战,现阶段主要基于专家经验进行评估,同时将主观问题拆解成多个维度,避免笼统评价。后续可进一步结合用户调研、A/B测试、标注知识库等手段建立更科学的评估体系。

DataFun:落地过程中,大模型的幻觉问题、长尾场景覆盖不足等挑战如何解决?是否有针对性的数据增强或反馈闭环机制?

蔡聪怀:针对幻觉问题,我们在数据层结合质量分模型对反馈数据进行筛选,并引入人工抽检机制来保证模型数据的质量。在推理阶段,也会基于RAG技术,从标准知识库中召回高质量的业务沉淀知识,作为生成条件约束。对于长尾场景的问题,我们重点关注极端、高风险的反馈类问题,针对每个问题类别,会搭建独立的召回、识别链路来处理。

03

价值与行业洞察

DataFun:当前方案为抖音用户体验提升了哪些可量化的指标(如留存率、投诉率)?这些成果对其他内容平台是否有普适性参考价值?

蔡聪怀:核心指标优化包括降低负向反馈量,和提升正向用户满意度。同时,在问题解决率、服务效率上也得到提升,这些问题其他内容平台大概也会遇到,技术方案应该可以提供参考。

DataFun:您认为未来3年,大模型在用户体验领域的核心突破方向是什么?技术层面(如多模态泛化)和业务层面(如个性化与隐私平衡)分别需要哪些准备?

蔡聪怀:我觉得核心突破方向在于AI Agent技术在体验域的演进,从单一聊天功能,到智能聊天、问题识别、问题分析、根因诊断等多维协作的演进,大模型将帮助用户体验实现更流畅的交互和更快速的解决。技术层面上,在Agent架构优化、业务数据收集、模型微调、模型压缩等方面都要做足功课。业务层面上,需要建立用户隐私管理体系、完善业务知识库标准、建立业务整合和协同等机制。

嘉宾介绍

蔡聪怀:字节跳动算法专家,哈尔滨工业大学硕士毕业,先后就职于腾讯、字节跳动。从事AI算法多年,在内容理解、体验智能化等业务场景有丰富的落地经验。