首页 >行情 > 正文

世界动态:​机器学习数据不满足同分布,怎么整?

2022-12-30 08:23:52

机器学习作为一门科学,不可避免的是,科学本身是基于归纳得到经验总结,必然存在历史经验不适用未来的情况(科学必可证伪)。这里很应景地讲一个小故事--By 哲学家罗素:

农场有一群火鸡,农夫每天来给它们喂食。经过长期观察后,一只火鸡(火鸡中的科学鸡)得出结论,“每天早上农夫来到鸡舍,我就有吃的”,之后每天的经历都在证实它的这个结论。但是有一天,农夫来到鸡舍,没有带来食物而是把它烤了,因为这天是圣诞节,做成了圣诞节火鸡。


【资料图】

通过有限的观察,得出自以为正确的规律性结论的,结局如是此。以这角度,我们去看AI/机器学习的应用,也能看到很多类似的例子。

机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学,是基于一系列假设(基本的如,独立同分布假设)归纳得到经验,进行预测的过程。

也不可避免的,机器学习中也可能出现预测的数据与训练数据不满足同分布,历史数据经验不那么适用了!导致预测效果变差或失效的情况。这就类似我们考试的时候,发现这类型的题目我没有见过,歇菜了...

一、什么是数据不满足同分布

实际预测与训练数据不满足同分布的问题,也就是数据集偏移(Dataset shift),是机器学习一个很重要的问题。

从贝叶斯定理可得P(y,x) = P(y|x) * P(x) = P(x|y) * P(y),当输入空间的边缘概率分布P(x) , 输出空间的标签分布P(y) 以及表示该机器学习任务的条件概率分布 P(y|x) 之中,有任一项因素发生偏移导致训练数据与预测数据 P(y,x)造成差异,即为数据集偏移现象。

不同因素对应着如下三种情况得数据偏移:

Covariate shift:协变量偏移(统计学中的协变量即机器学习中的特征的概念), 指的是输入空间的边缘概率分布P(x),也就输入特征x分布变化导致的偏移。这个应该是最为常见的,比如图像识别任务中,训练时输入的人脸图像数据没戴口罩,而预测的时候出现了很多戴口罩人脸的图像。再如反欺诈识别中,实际预测欺诈用户的欺诈行为发生升级改变,与训练数据的行为特征有差异的情况。

Prior probability shift:先验偏移,指的是标签分布P(Y) 差异导致的。比如反欺诈识别中,线上某段时间欺诈用户的比例 对比 训练数据 突然变得很大的情况。

Concept shift:映射关系偏移,指P(y|x) 分布变化,也就是x-> y的映射关系发生变化。比如农场的火鸡,本来x是【 早上/农夫/来到/鸡舍】对应着 y是【火鸡被喂食】,但是圣诞节那天这层关系突然变了,x还是【 早上/农夫/来到/鸡舍】但对应着 y是【火鸡被烤了】..hah,留下心疼的口水..

二、为什么数据不满足同分布

可能导致数据不满足同分布的两个常见的原因是:

(1)样本选择偏差(Sample Selection Bias) :分布上的差异是由于训练数据是通过有偏见的方法获得的。

比如金融领域的信贷客群是通过某种渠道/规则获得的,后面我们新增加营销渠道获客 或者 放宽了客户准入规则。这样就会直接导致实际客群样本比历史训练时点的客群样本更加多样了(分布差异)。

(2)不平稳环境(Non-stationary Environments):由于时间上的或空间上的变化导致训练与测试环境不同。

比如金融领域,预测用户是否会偿还贷款的任务。有一小类用户在经济环境好的时候有能力偿还债务,但是由于疫情或其他的影响,宏观经济环境不太景气,如今就无法偿还了。

三、如何检测数据满足同分布

可能我们模型在训练、验证及测试集表现都不错,但一到OOT(时间外样本)或者线上预测的时候,效果就掉下来了。这时我们就不能简单说是模型复杂导致过拟合了,也有可能是预测数据的分布变化导致的效果变差。我们可以通过如下常用方式检测数据分布有没有变化:

3.1 统计指标的方法

通过统计指标去检测分布差异是很直接的,我们通常用群体稳定性指标(Population Stability Index,PSI), 衡量未来的样本(如测试集)及训练样本评分的分布比例是否保持一致,以评估数据/模型的稳定性(按照经验值,PSI<0.1分布差异是比较小的。)。同理,PSI也可以细化衡量特征值的分布差异,评估数据特征层面的稳定性。PSI指标计算公式为 SUM(各分数段的 (实际占比 - 预期占比)* ln(实际占比 / 预期占比) ),介绍可见:指标。其他的方法如 KS检验,KDE (核密度估计)分布图等方法可见参考链接[2]

3.2 异常(新颖)点检测的方法

可以通过训练数据集训练一个模型(如 oneclass-SVM),利用模型判定哪些数据样本的不同于训练集分布(异常概率)。异常检测方法可见:异常检测算法速览

3.3 分类的方法

混合训练数据与测试数据(测试数据可得情况),将训练数据与测试数据分别标注为’1‘和’0‘标签,进行分类,若一个模型,可以以一个较好的精度将训练实例与测试实例区分开,说明训练数据与测试数据的特征值分布有较大差异,存在协变量偏移。

相应的对这个分类模型贡献度比较高的特征,也就是分布偏差比较大的特征。分类较准确的样本(简单样本)也就是分布偏差比较大的样本。

四、如何解决数据不满足同分布4.1 增加数据

增加数据是王道,训练数据只要足够大,什么场面没见过,测试数据的效果自然也可以保证。

如上面的例子,作为一只农场中的科学鸡,如果观察到完整周期、全场景的数据,或者被灌输一些先验知识,就能更为准确预测火鸡的命运。

但是现实情况可能多少比较无奈,可能业务场景的原因限制,并不一定可以搞得到更多数据,诸如联邦学习、数据增强等方法也是同样的思路。

4.2 数据增强

在现实情况没法新增数据的时候,数据增强(Data Augmentation)是一个备选方案,在不实质性的增加数据的情况下,从原始数据加工出更多的表示,提高原数据的数量及质量,以接近于更多数据量产生的价值。

其原理是通过对原始数据融入先验知识,加工出更多数据的表示,有助于模型判别数据中统计噪声,加强本体特征的学习,减少模型过拟合,提升泛化能力。具体可见:数据增强方法

4.3 选择数据

我们可以选择和待预测样本分布比较一致的数据做模型训练,使得在待预测样本的效果变得更好。

这个方法看起来有点投机,这在一些数据波动大的数据竞赛中很经常出现,直接用全量训练样本的结果不一定会好,而我们更改下数据集划分split的随机种子(如暴力for循环遍历一遍各个随机种子的效果),或者 人工选择与线上待预测样本业务类型、 时间相近的样本集用于训练模型(或者 提高这部分样本的学习权重),线上数据的预测效果就提升了。

4.4 半监督学习

半监督学习是介于传统监督学习和无监督学习之间,其思想是通过在模型训练中直接引入无标记样本,以充分捕捉数据整体潜在分布,以改善如传统无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题。

通过半监督学习,训练时候可以充分捕捉数据整体潜在分布,同理也可以缓解预测数据分布有差异的问题。半监督分类常用的做法是,通过业务含义或者模型选择出一些虽然无标签的样本,并打上大概率的某个标签(伪标签)加入到训练数据中,验证待预测样本的效果有没有变好。

经典的如金融信贷领域的拒绝推断方法(参考链接[6]),我们可以从贷款被拒绝的用户中(这部分用户是贷款的时候直接被拒绝了,没有"是否违约"的标签),通过现有信贷违约模型(申请评分卡)预测这部分拒绝用户的违约概率,并把模型认为大概率违约的用户作为坏样本加入到训练样本中,以提升模型的泛化效果。

4.5 特征选择

对于常见的协变量偏移,用特征选择是一个不错的方法。我们可以分析各个特征在分布稳定性(如PSI值)的情况,筛选掉分布差异比较大的特征。需要注意的是,这里适用的是筛掉特征重要性一般且稳定性差的特征。如果重要特征的分布差距也很大,这就难搞了,还是回头搞搞数据或者整整其他的强特征。特征选择方法可见:python特征选择

4.6 均衡学习

均衡学习适用与标签分布差异(先验偏移)导致的数据集偏移。均衡学习的方法可以归结为:通过某种方法,使得不同类别的样本对于模型学习中的Loss(或梯度)贡献是比较均衡的,以消除模型对不同类别的偏向性,学习到更为本质的决策。

比如原反欺诈训练样本中,好坏样本的比例是1000:1,但到了预测,有时实际的好坏样本的比例是10:1。这时如果没有通过均衡学习,直接从训练样本学习到模型,会先天认为欺诈坏样本的概率就是很低的,导致很多欺诈坏样本的漏判。

不均衡的任务中,一方面可以通过代价敏感、采样等方法做均衡学习;另一方面也可以通过合适指标(如AUC),减少非均衡样本的影响去判定模型的效果。具体可见:一文解决样本不均衡(全)

最后,机器学习是一门注重实践的科学,在实践中验证效果,不断探索原理。

仅以此文致敬我们的数据科学鸡啊。


参考链接:

1、理解数据集偏移 https://zhuanlan.zhihu.com/p/449101154

2、训练/测试集分布不一致解法总结

3、训练集和测试集的分布差距太大有好的处理方法吗 https://www.zhihu.com/question/265829982/answer/1770310534

4、训练集与测试集之间的数据偏移(dataset shift or drifting) https://zhuanlan.zhihu.com/p/304018288

5、数据集偏移&领域偏移 Dataset Shift&Domain Shift https://zhuanlan.zhihu.com/p/195704051

6、如何量化样本偏差对信贷风控模型的影响?https://zhuanlan.zhihu.com/p/350616539

-推荐阅读-

深度学习系列

1、一文概览神经网络模型2、一文搞定深度学习建模预测全流程(Python)3、一文弄懂CNN及图像识别(Python)机器学习系列1、一文解决样本不均衡(全)2、一文全览机器学习建模流程(Python代码)3、一文速览机器学习的类别(Python代码)...更多原创文章,请关注个人博客:https://github.com/aialgorithm/Blog关注【算法进阶】领福利回复【课程】:即可免费领取Python、机器学习、AI 等精品课程资料大全回复【加群】:可提问咨询、共享资源...与群内伙伴一起交流,共同进步或扫码,备注“加群”

上一篇: 下一篇:
x
推荐阅读

世界动态:​机器学习数据不满足同分布,怎么整?

2022-12-30

全球消息!陕西金叶(000812.SZ):重庆金嘉兴终止转让5%的股份予华润深国投信托

2022-12-29

每日讯息!京沪高铁:与国铁集团签订综合服务框架协议

2022-12-29

当前热门:11月欧盟商用车销量同比下降0.6%,连续17个月下滑

2022-12-29

【新要闻】抓好农村新冠疫情防控

2022-12-29

每日短讯:渤海化学董秘回复:截至2022年12月20日公司的股东人数为45727

2022-12-29

全球短讯!美股盘前:特斯拉企稳回升 三大期指微幅走高

2022-12-29

快资讯:大班数学工作总结(通用56篇)

2022-12-28

世界今热点:中光防雷(300414):选举产生第五届监事会职工代表监事

2022-12-28

热推荐:俄媒盘点:中国“铁路外交”在全球开花结果

2022-12-28

【全球热闻】保龄宝:公司赤藓糖醇产品不存在结块问题

2022-12-28

焦点速讯:第一个以中国内地城市命名的国际海事公约诞生

2022-12-27

环球关注:房贷转经营贷陷阱多

2022-12-27

全球资讯:中捷通信:用数赋智实现精益供应链服务

2022-12-27

世界快消息!铜陵有色董秘回复:公司没有独立的镍矿资源,公司的镍产品是冶炼的副产品之一,作为资源综合回收利用

2022-12-27

【天天快播报】IBM与腾讯重提“无界零售”:明年零售企业必须全线出击

2022-12-26

观热点:蔚来:明年上半年新能源汽车市场将承压

2022-12-26

环球短讯!中信证券:看好保租房REITs的投资价值

2022-12-26

【全球速看料】汇金通(603577.SH)预中标1.27亿元国家电网相关采购项目

2022-12-25

环球速读:正规离婚协议书

2022-12-24

每日快播:微博借钱逾期3个月还不起会上征信吗

2022-12-24

世界消息!三维通信: 关于修订《公司章程》的公告

2022-12-23

【世界新要闻】西藏粮食产量连续8年稳定在100万吨以上

2022-12-23

全球热消息:【机器学习】集成学习代码练习(随机森林、GBDT、XGBoost、LightGBM等)

2022-12-23

世界关注:成都燃气: 北京环球(成都)律师事务所关于成都燃气2022年第三次临时股东大会之法律意见书

2022-12-22

世界微动态丨快可电子董秘回复:截至2022年12月20日,公司股东人数为9530户

2022-12-22

全球快资讯:一周跌20%!硅片价格断崖式下跌 释放什么信号

2022-12-21

环球今日讯!徐工机械最新公告:徐工汉云拟获增资3亿元 国开制造业基金增资2.5亿元

2022-12-21

聚焦:天振股份:董事长已赴美拜访主要客户 并达成新的合作意向

2022-12-21

报道:漫步者: 独立董事候选人声明(张昱波)

2022-12-20

每日报道:推出微信键盘 张小龙不图输入法市场图什么

2022-12-20

每日聚焦:西周晋国玉器精品汇聚一堂

2022-12-20

【当前独家】梅西何能“超越”丨九派时评

2022-12-19

世界观热点:杂谈|做期货靠什么盈利?

2022-12-19

环球微动态丨平安证券:市场向上趋势不变 波动可能会有所加大

2022-12-19

今日热门!“2022年中国永春芦柑品牌文化节”举办

2022-12-18

环球聚焦:更省钱 家里买打印机选这三款就对了

2022-12-18

当前报道:在卡塔尔打工:当地人“不缺钱”,上班为了混社保;外国人挣得并不多,不如去北上广

2022-12-17

今日观点!斯莱克(300382.SZ):将在宜宾市新设立控股公司 实施苏州斯莱克宜宾厂房定购项目

2022-12-16

当前观点:迈拓股份获11家机构调研:公司是国内较早向市场推广使用户用智能超声水表的企业之一(附调研问答)

2022-12-16

【独家】【机构调研记录】国联安基金调研英杰电气

2022-12-16

世界微资讯!濮阳县徐镇派出所连续查处两起危险驾驶案

2022-12-15

焦点报道:点赞!河南鲁山范钦宪带出的这个爱心团队获得村民广泛赞誉

2022-12-15

环球新动态:海利生物(603718)12月14日主力资金净卖出641.78万元

2022-12-15

精彩看点:农村房屋买卖合同中无效是什么意思

2022-12-14

全球视点!近期开机的四部新剧,造型一部比一部精美,看看有你想追的吗?

2022-12-14

世界热文:军婚:《战爷追妻夜夜撩》他说,“战家要有后,你主动点……”

2022-12-14

焦点观察:嗨袋网贷13000还不起我会不会被起诉

2022-12-13

每日精选:亚翔集成董秘回复:我司的主要客户集中于高端洁净室工程市场中的IC半导体、光电行业领域

2022-12-13

全球要闻:健康元: 健康元药业集团股份有限公司八届董事会二十次会议决议公告

2022-12-12

世界消息!东方园林:江西屹立10万吨再生电解铜项目尚未完成建设

2022-12-12

当前报道:中超-天王山之战!马尔康破门吴兴涵救主,武汉三镇1-1山东泰山继续领跑

2022-12-09

报道:掌阅科技: 掌阅科技股份有限公司关于公司持股5%以上的股东减持股份达到1%的提示性公告

2022-12-08

【环球速看料】邓州法院召开十月份重点工作讲评会

2022-12-07

【天天热闻】今飞凯达:公司研发的高强韧非热处理一体化压铸铝合金新材料尚处于专利公示阶段,目前未应用于新能源车零部件生产

2022-12-06

国内油价或将迎来“四连跌” “第15轮”调整将于下周二晚上

2022-08-08

湖南省人社厅公布7个热门职业的专项职业能力考核规范

2022-06-20

总投资3172.5亿元 石家庄提前超额完成年度目标任务

2022-03-20

石家庄海关共签发RCEP原产地证书864份 货值3.9亿元

2022-03-20

蚌埠海关累计签发RCEP原产地证书35份 涉及金额2583.09万元

2022-03-20

绥化望奎以工业化思维为引领 推动肉类加工制造产业腾飞

2022-03-20

衡阳耒阳免费发放油茶苗 助推油茶产业稳步发展

2022-03-20

郴州安仁文旅项目集中开工 总投资1000万元

2022-03-20

2022年郴州计划重点推进文旅项目101个 总投资354亿元

2022-03-20

宿州泗县深入推进文旅融合发展 擦亮城市品牌

2022-03-20

汽车零部件产业“领头羊” 锦州力争一季度“开门红”

2022-03-20

油价或有望冲击“九元”大关 宁波新能源汽车市场如何

2022-03-20

从水塘到“云”端 全国最大高邮鸭养殖基地实现智慧养殖

2022-03-20

淡季不忘引流 京郊民宿市场有望迎来回暖

2022-03-20

镇江乡村一二三产业融合发展 闯出“镇江之路”

2022-03-20

总投资30亿元 盐城东台8个重大产业项目相继开工

2022-03-20

去年南京规上信息软件业企业实现营收7577.28亿元 同比增长10.3%

2022-03-20

2021年南京农业保险保费收入53.07亿元 同比增长19.13%

2022-03-20

安阳本土确诊病例上升至26例

2022-01-10

3次推迟婚期 满洲里抗疫民警兑现承诺:“我回来娶你了!”

2022-01-10

上海公安民警在岗位上迎接2022年“中国人民警察节”

2022-01-10

郑州核酸检测为中小学生开辟“绿色通道”

2022-01-10

反扒便衣警察“小曹”:藏在人海中的隐形“守护者”

2022-01-10

哥哥移植肾脏给病重弟弟 已在上海顺利康复

2022-01-10

网友与人裸聊被敲诈10万余元 被告人获刑5年

2022-01-10

1月10日起天津市暂停开展旅行社旅游业务活动

2022-01-10

“3·28”特大跨境电信网络诈骗案公开审理

2022-01-10

忠诚履职 守护万家灯火

2022-01-10

奥密克戎病例已涉天津、安阳 “动态清零”必须坚持!

2022-01-10

专家协作成功完成亲体肾移植 同“肾”兄弟顺利康复

2022-01-10

著名指挥陈燮阳携苏州交响乐团“相约北京”

2022-01-10

中国热科院选育出4个木薯新品种

2022-01-10

北京疾控:12月9日以来途经或旅居天津市人员请立即报备

2022-01-10

河南安阳本轮疫情累计报告确诊病例26例

2022-01-10

许勤批示黑土地保护不力问题:加快形成黑土地保护长效机制

2022-01-10

【挑战365天正能量速写画】第041期:当警娃难,当双警家庭的警娃更难

2022-01-10

重庆姐弟坠亡案两被告人5个月间聊天记录曝光

2022-01-10

因疫情防控措施落实不力 江苏金湖一超市被红牌警告

2022-01-10

江歌案一审判决刘鑫赔偿近70万元 有何依据?专家解读

2022-01-10

广东肇庆“毒驾连撞5车致1死”肇事司机被批捕

2022-01-10

一线工作近22年的缉毒警:我知道坏的是毒品不是人性

2022-01-10

青海保障门源地震后生活必需品应急物资

2022-01-10

江西最大文物倒卖案宣判:倒卖国家二级文物 9人获刑

2022-01-10

呼和浩特:寒假期间有条件的学校要开展校内托管服务

2022-01-10

广西东兴口岸恢复通关 入境需网上预约

2022-01-10