从偏差到公平:Uplift 建模中的去偏技术
发布时间:2025-06-28 09:00 浏览量:1
导读 在大模型时代数据科学的变与不变的活动中,梁杰老师以“从偏差到公平:Uplift 建模中的去偏技术”为题,系统探讨了因果推断中消除数据偏差的核心挑战与技术路径。
Uplift 建模的核心目标在于精准评估干预(如营销策略)对个体的因果效应,以优化资源投入的 ROI 效率。然而,其落地依赖随机无偏数据(如 RCT 实验数据),现实中常因成本限制或线上干扰因素导致数据分布失衡,并引入混淆偏差(未被控制的干扰变量)与归纳偏差(模型局限性引发的误判)。
针对这些挑战,分享深入解析了去偏技术的核心方法。本期内容围绕着以下几点展开:
1. Uplift 建模基础与挑战
2. 去偏技术核心方法
3. 深度因果模型发展脉络
分享嘉宾|梁杰 马上消费金融股份有限公司 高级算法工程师
编辑整理|王震南
内容校对|李瑶
出品社区|DataFun
01
1. Uplift 建模的核心目标
Uplift 建模主要用于在预算或资源有限的场景下,最大化业务目标与成本(ROI)效率。其核心是准确评估干预(如营销策略、提额)对个体的因果效应,而非仅预测结果。
2. 随机无偏数据的重要性
随机无偏数据是 Uplift 建模的基础条件。
随机无偏数据:通过随机控制实验(RCT)获取,当数据量足够大时,实验组与控制组的数据分布基本一致。Uplift 应用效应:在同一周期内,使用随机无偏数据观测对照实验结果,评估干预应用效应。局限性:实际业务中因成本限制等因素难以获取足够无偏数据,同时线上干扰因素引入混淆偏差。3. 混淆偏差与归纳偏差
混淆偏差:由未被控制的干扰变量导致干预组与对照组数据分布差异。归纳偏差:由于建模方法的局限性导致对因果效应的误判。4. Uplift 建模的面临问题
如何消除建模当中的混淆偏差?
(2)倾向得分(PS)充分性定理
场景:在重加权和样本匹配的场景下定义:个体在给定混淆变量X下接受干预的条件概率。理论基础:倾向性得分充分性定理表明,当给定倾向得分时,干预分配与潜在结果独立,可替代原始的高维协变量 X 简化分析,就可以简化因果效应的工具。应用条件:强可忽略性、正值假设局限性:高度依赖倾向性得分模型的正确性依赖所有混淆变量被观测,且 PS 需在(0,1)范围内,无法处理未观测混淆变量。2. 去偏方法详解
(1)样本重加权方法
方法思路:通过样本加权的方式,完成干预组和对照组的数据对齐。通过给予在普通情况下倾向性更低的样本,更高的权重;倾向性更高的样本,更低的权重。然后重建一个平衡的样本集,使得样本集特征能更好代表无偏人群。
经典方法-逆倾向概率加权(IPW)
原理:用混淆变量实现一个倾向性得分模型,针对每个样本计算得到权重,评估整个实验平均的因果效应。局限性:针对倾向性得分的估计需要足够精确,PS 估计的误差会直接影响结果。风险:极端 PS 值可能导致结果偏差,需要通过阈值过滤异常值,额外进行处理。(2)匹配方法
①经典方法-样本匹配方法(PSM)
原理:对于每一个观测样本,找和其背景变量相似,不在同一个 treatment 组下的样本作对比,计算因果效应
实现步骤:
距离度量:评估干预组和非子干预组样本之间的一个相似性,如欧氏距离、卡方距离,评估样本相似性。匹配方法:NNM、caliper、分层匹配、kernel 等混淆变量选择:需覆盖影响结果的所有变量,尽可能剔除无关变量、工具变量,最经典的方法就是倾向性得分匹配②倾向性得分匹配(PSM)的步骤与关键点
选择协变量 Xi:尽可能涵盖影响结果和干预的相关变量估计倾向得分:再构建倾向性得分模型(如 logit 或 probit 模型)来估计每个个体接受处理的概率。这个概率称为倾向得分。匹配样本:根据倾向得分将处理组和对照组的个体进行匹配,使得两组在协变量上尽可能平衡。检验平行假设是否满足:使得 Xi 在匹配后的处理组均值和控制组均值接近,保证数据平衡。估计处理效应:在匹配后的样本中估计处理组和对照组之间的差异,以评估处理的影响,完成无偏处理效应的估计。③匹配方法的对比
最近邻匹配:在最近范围找到与观测样本 treatment 的不一致,然后找到相似观测变量,做对比。但是当样本量分布差异比较大,会找不到比较相似的观测变量。卡尺匹配:在最近匹配的方法上设置阈值,或者容忍度,再运用倾向性得分过滤,进而选择匹配一些在容忍范围内相似的样本。限制匹配距离(如 PS 差值核函数匹配:核函数是一种降维方法,通过找到高维变量,进行降维到低维语义空间,再做配对。匹配策略:样本一对一匹配,或者样本一对多匹配。一对一匹配:样本偏差比较小,因为寻找的都是相邻样本。约束在于样本量小,会导致匹配到的样本量也比较小,就会造成最后的影响波动性会比较大。一对多匹配:一条样本会匹配多条相邻样本,但因为它每条样本的相似性会逐渐减弱,一对多虽然增加了结果的样本量,但最后结果的偏差会加大,因为引入了更多的不相似性。混淆偏差去偏的重加权(ReWeighting)和样本匹配方法(PSM)都是比较传统的方法,适用于政策性或是策略性的一些决策场景。
比如,在实际应用时,会出现有一个比较强的业务规则约束,即可选择的干预手段和干预范围并不多时。需要做简单的数据去偏,然后才能得到不同干预手段的因果效应,从结果中,选出效应比较好的手段,反映到业务层面做营销策略的改动和上线。
(3)深度学习
①混淆偏差去偏--表示学习 Balance
目标:通过特征工程或深度学习,分离混淆变量与干预效应的表征空间。方法:平衡学习(如 CausalBalance)确保干预组与对照组的表示分布一致。约束:混淆变量存在,导致干预组和对照组的特征分布不一致,导致最后因果效应是有偏的。步骤:首先将特征空间映射到一个新的特征空间;再在干预组进行学习转化得到新的数据结果,这时干预组和对照组之间的表示是平衡的。最后用结果数据学习到的表征,去做因果效应估计,偏差就会减弱。②混淆偏差去偏--TarNet
基础的 S-Learner 的设计中,会把干预变量、混淆变量等内容都放到一个空间中,用同一个网络去学习,最后结果的预估偏差是较大的。
T-Learner 会有统一的输入,再把这个数据分成干预组和非干预组两个空间,分别输出,最后再通过相减的方法,去计算 CATE。
TarNET 则是在 T-learner 的基础上对整体的混淆变量,经过统一的表征空间,先要进行多层的空间过滤,然后进入不同的干预网络,再去分别学习他们的表征,最后实现因果效应预估。这就是一个基于深度模型表征平衡的方法。
③混淆偏差去偏--CFRNet
CFRNet 基于 TarNet 的空间结构,另外增加了一个基于 IPM 的基本概率度量,即在 TarNet 的基础上,增加 IPM 损失修正,衡量干预组和对照组的分布距离。
应用效果:强行纠正干预组和对照组之间的分布,然后让对照组和控制组的表征在空间中更平衡。
计算方式:计算两个分布之间的一个距离。通过 MMD(最大均值差异)和 Wasserstein 距离。
④混淆偏差去偏--Weighted CFRNet
在原有 CFRNet 基础上,新增一个重加权的逆倾向概率加权方法,更有力的纠正网络空间数据分布,以便实现更优的因果效应设计。
⑤混淆偏差去偏 DragonNet
不同于之前的网络,DragonNet 属于混淆变量调整的方式进行。
DragonNet 设计步骤:第一阶段,先通过深度网络隐藏层 Z(X)来表征 confounder,即通过一个生产网络,把所有的协变量都表征到一个特征空间中。
第二阶段,因为最终输出两端 Q1 和 Q2,分别对应干预组和对照组的两个神经网络。中间过程会把倾向性得分网络和预估网络,集成到一起,进行端到端的训练。
最终阶段,因为一层一个节点的设计,每个节点采用简单的线性映射(sigmoid)直接输出,保证了 confounder 表征层和倾向性得分直接影响。因为最终端跟预估结果 Y 有关,当只提取与倾向性得分有关的信息时,表征向量 Z(X)则为既影响 T 也影响 Y 的向量特征。
变量纠偏设计思路:基于混淆变量调整思路。通过端到端联合建模倾向评分与潜在结果,通过添加倾向评分网络,反向传播时,将干预偏差信息传递至共享表示层 Z,迫使网络在特征提取时,主动过滤与处理干预相关但与因果效应无关的混淆变量,从而在潜在空间实现混淆变量的平衡。
⑥混淆偏差去偏--因果表征解耦
特征分类在 Uplift 建模的场景当中,可以将特征分成以下的四类:
I:工具变量(Instrumental Variable), 只影响 T 干预变量
A:调整变量(Adjustment Variable),只影响 Y 预测结果变量
C:混淆变量(Confounding Variable),影响 T 干预变量和 Y 预测结果变量
E:无关变量,忽略
去偏步骤需要在模型中,把调整变量分解出来,只与 Y 预测结果相关的变量。调整变量是独立于干预的,对不同的干预,它的调整变量的表征要尽可能地相近相似。分解工具变量,工具变量是通过干预 T 来影响最后的Y。当干预固定的时候,工具变量和 Y 的路径就会消失,这一步是中间节点。在这个角度下,是最小化不同的干预,引起工具变量的分布差异。接着平衡混淆变量,在给定干预时,工具变量和最后的预测结果是相互独立的,最小化干预组和对照组的分布距离,得到平衡后的表征。⑦混淆偏差去偏--DeR-CFR
设计思路分解 A(X)的网络,构建网络 gA,拟合结果变量 Y;为了保证调整变量和干预 T 保持独立,需要设计 loss 预估。保证在干预 T=1 和干预 T=0 的情况下,A(X)分布距离越近越好。平衡混淆变量的网络。为了让混淆变量的表征和干预是独立的,需要平衡干预组和对照组的一个混淆变量的分布。分离工具变量。构建网络 gt,学习倾向评分,最大化工具变量 I(X)对 T 的拟合能力;同时为了保证工具变量和预估结果 Y 是独立的,在干预时,需要加入最小化 I(X)的分布距离,严格限制混淆变量 C 和调整变量 A 的信息被嵌入 I(X),通过这些强行平衡不同变量在给定条件下的分布,还会设计加入政策化的内容。在模型发展脉络图中,本文重点讲解的五种方法,采用了不同颜色进行标注。图中也展示了未来深度因果研究的一些方向。在未来,更多方法将用于解决实际的业务难题。
以上就是本次分享的内容,谢谢大家。