什么是曝光去偏(Exposure Debiasing)怎么处理没曝光的物品 本文收录于GithubAI-From-Zero 项目 —— 一个从零开始系统学习 AI 的知识库。如果觉得有帮助欢迎 ⭐ Star 支持by Laizhuocheng一、简介想象你开了一家书店店员总是把畅销书摆在最显眼的位置而那些小众但优质的书籍被藏在角落里。久而久之畅销书越来越畅销好书却无人问津——这不是因为书不好而是因为它们根本没被看到。这就是推荐系统中著名的曝光偏差问题。用户只能对系统展示的商品产生点击、购买等行为而那些从未被展示的商品即使非常符合用户口味也无法获得任何正反馈。久而久之推荐系统会陷入马太效应热门商品越来越热门冷门商品越来越冷门。更糟糕的是新上架的商品或小众商品会陷入恶性循环没曝光就没数据 → 没数据模型就不推荐 → 更不推荐就更没曝光。那么如何让推荐系统公平地看待每一个商品这就是曝光去偏要解决的问题。二、什么是曝光去偏曝光去偏Exposure Debiasing是一类用于纠正推荐系统中由曝光机制引入的选择性偏差的技术。简单来说它的目标是让模型学会评估商品的真实价值而不是仅仅学会预测哪些商品会被展示。核心思想曝光去偏的本质是处理数据收集过程中的非随机性问题。理想情况下我们希望收集到用户对所有商品的真实偏好但现实是用户只能对推荐系统展示出来的那部分商品产生反馈。这就像做问卷调查如果只发给特定人群结果就会有偏差。曝光去偏就是要矫正这种偏差让模型能够推断出如果用户看到了那些没曝光的商品他们会喜欢吗三、曝光去偏如何工作3.1 逆倾向加权IPS最主流的方法之一是逆倾向加权Inverse Propensity ScoringIPS。核心思想给每个训练样本乘以曝光概率的倒数作为权重。曝光概率越低的样本权重越高。举个例子商品A的曝光概率是50%权重 1/0.5 2商品B的曝光概率是1%权重 1/0.01 100这样那些很少被展示的商品在训练时就有了更高的话语权模型就不会忽视它们的价值。但IPS有个致命弱点当曝光概率非常小时权重会变得极大导致训练不稳定。比如曝光概率只有万分之一权重就变成一万这会让梯度爆炸。工程解决方案1. 设置权重上限如100避免极端值 2. 设置曝光概率下限如0.01避免除以过小的数 3. 使用Doubly Robust方法结合模型预测降低方差3.2 Doubly RobustDR方法DR方法巧妙地结合了IPS的无偏性和模型预测的低方差先用一个baseline模型预测未曝光时的表现然后用IPS去矫正预测误差这样即使倾向性分数估计有一定误差或者baseline模型预测不够准确只要不是两者同时出错DR估计量就能保持一致性。3.3 探索机制主动给未曝光物品创造机会除了离线矫正还可以通过探索机制主动给未曝光物品制造数据机会Epsilon-Greedy策略设置一个探索率如10%每次推荐时90%的概率按模型预测排序10%的概率随机展示简单直接但探索是盲目的Thompson Sampling更智能的探索为每个物品维护一个后验分布不确定性大的物品有更高的采样概率随着数据积累不确定性降低探索概率自然衰减这就像老师提问一开始会给所有学生机会发现某个学生回答得很好后就会更信任他的能力。3.4 处理完全没曝光的物品对于完全没曝光的物品曝光概率为0IPS完全失效因为权重会变成无穷大。这时候需要完全不同的策略1. 冷启动预测利用物品的内容特征品牌、价格、类别等参考相似物品的历史表现基于商品知识图谱传播信号2. 引入随机流量拿出5%的流量做完全随机推荐为新品制造初始曝光机会提供无偏的锚点数据用于校准3. 半监督学习不把未曝光物品简单当成负样本将它们当作无标签数据用一致性正则化来利用这些信息四、曝光去偏的优缺点优势劣势提升推荐多样性避免结果同质化短期点击率可能下降帮助新商品和小众商品获得曝光需要额外的工程复杂度倾向性分数估计改善长尾物品的推荐效果权重截断参数需要调优提升用户长期满意度和留存探索机制可能带来短期体验下降促进平台生态健康发展完全未曝光物品处理难度大五、实际应用与发展趋势5.1 实际应用场景电商平台的新品扶持在电商场景中曝光去偏被广泛用于新品冷启动。通过IPS加权和探索机制的结合新上架的商品能够获得公平的展示机会避免被头部商品淹没。内容推荐的长尾挖掘视频、音乐、新闻平台利用曝光去偏技术挖掘长尾内容的价值。这不仅提升了用户体验发现更多感兴趣的内容也帮助创作者获得应有的流量。广告系统的公平竞价在广告推荐中曝光去偏确保新广告主或小众广告主能够与大广告主公平竞争避免赢家通吃的局面。5.2 工程实践要点倾向性分数估计用历史曝光日志训练分类模型输入用户特征、物品特征、上下文特征输出曝光概率关键加入随机流量作为锚点数据权重截断策略下界截断避免除以过小的数如0.01 上界截断控制极端权重如100 调优方法网格搜索配合离线指标评估AB实验设计不只关注短期CTR更要看长期生态指标监控推荐多样性基尼系数、覆盖率观察长尾物品曝光占比和新品的冷启动速度5.3 发展趋势与因果推断的深度融合曝光去偏本质上是因果推断在推荐系统的应用。未来会有更多基于后门调整、前门调整等因果推断工具的方法出现。在线学习与离线去偏的结合离线用IPS/DR方法训练base模型在线用Bandit算法实时调整既有理论保证又有实时优化能力动态去偏权重根据业务阶段灵活调整去偏强度新品扶持期去偏权重调高到0.5大促期间降到0.2以追求GMV六、总结与思考曝光去偏解决的是推荐系统中一个根本性的问题我们观察到的数据是被系统筛选过的数据。通过逆倾向加权、探索机制和冷启动预测等技术我们可以让模型更公平地评估每一个商品的真实价值而不是仅仅学会预测哪些商品会被展示。更深层的思考曝光去偏提醒我们在机器学习中数据不是中立的——它承载着系统的偏见、历史的惯性、以及权力的分配。当我们说让数据说话时必须意识到数据本身就在说着某些商品比另一些更值得被看见。真正优秀的推荐系统不应该只是预测用户会点击什么而应该帮助用户发现他们真正会喜欢的东西——哪怕这些东西从未被展示过。*参考资料Joachims et al., “Unbiased Learning-to-Rank with Biased Feedback”Schnabel et al., “Recommendations as Treatments: Debiasing Learning and Evaluation”*