作者:贾恩东本文约2000字,建议阅读9分钟本文为你介绍更公平分配利益权重的一种算法——Shapley值方法。
(资料图片仅供参考)
本篇文章是数据派一文读懂系列的新年第一篇原创,在这里祝贺大家新年学业有新成就,生活有新气象!这次带大家了解一种有趣的从数学角度计算合作博弈贡献从而更公平分配利益权重的算法——Shapley值方法。
相信大家在日常生活中都接触过这样一个现象,那就是1+1不等于2。好了,不开玩笑,作者想说的是,很多时候多个主体分别产生的影响和共同产生的影响是不具备严格加性的。有句俗语,一个和尚挑水吃,两个和尚抬水吃,三个和尚没水吃。分开的三个和尚每个每天都挑水,但放在一起“协作”反而就没有水产出了。这里是一个关于协作的负面例子,但更多的是协作的正面例子,就是1+1大于2的效应。以下用一个案例具体来说明。
某公司有三个程序猿,分别是屌丝A,大佬B,美女C,如果大家不合作,A每个季度可以完成3个项目,B每个季度可以完成10个项目,C每个季度只能完成1个项目。但是老板小王为了充分挖掘员工潜力,合理配置公司资源,让A,B,C尝试了各种合作模式。王老板观察发现,屌丝都是潜力股,美女都是催化剂:屌丝A和大佬B合作每个季度可以完成15个项目,合作效果提升还行;屌丝A和美女C合作每个季度可以完成50个项目,合作效果爆炸;大佬B和美女C合作每个季度仅完成了12个项目,看来对大佬来说不影响拔刀的速度就不错了;ABC一起合作每个季度可以完成70个项目。最终王老板拍板让ABC以后就一起工作,按照小组完成的项目数额外发放项目奖金。请问聪明的读者,按照最公平正义的分配方法,哪位员工获得的奖金是最多的呢?
说A的同学:明显屌丝是潜力股,虽然单独工作表现一般,但是和美女一起合作,大大激发了工作热情,肯定是A贡献最多!说B的同学:应该是大佬贡献最大,因为单独来看,大佬本身能力是最强的!说C的同学:应该是美女贡献最大,虽然美女单独工作没什么效率,但显然对团队的影响无法替代!
请先别急,我们接下来使用理性的数学思维分析这个问题,可以顺便推导出shapley值的公式。
设想我们顺序将ABC放到合作队伍中(合作队伍一开始为空),那么合作的组合会有3!=6 种,如下表:
加入顺序 | A加入的贡献 | B加入的贡献 | C加入的贡献 |
A+B+C | 3-0=3 | 15-3=12 | 70-15=55 |
A+C+B | 3-0=3 | 70-50=20 | 50-3=47 |
B+A+C | 15-10=5 | 10-0=10 | 70-15=55 |
B+C+A | 70-12=58 | 10-0=10 | 12-10=2 |
C+A+B | 50-1=49 | 70-50=20 | 1-0=1 |
C+B+A | 70-12=58 | 12-1=11 | 1-0=1 |
表中的贡献计算方法可以举个例子来说明,B+C+A的顺序组合中,A的贡献是ABC的合作扣除BC的合作,即70-12=58;B的贡献就是B加入空的贡献,即10-0=10。其他类推。
但最终的加入顺序只有一种,而各个顺序都是等可能的。因此, A的贡献可以计算期望:(3+3+5+58+49+58)/6=176/6 B的贡献可以计算期望:(12+20+10+10+20+11)/6=83/6 C的贡献可以计算期望:(55+47+55+2+1+1)/6=161/6
这些贡献期望加在一起,(176+83+161)/6=70也恰是ABC的整体合作效果,验证了我们计算的合理性。做个简单除法,得出最终A的贡献占比是29.33%,B的贡献占比是13.83%,C的贡献占比是26.83%。A的贡献是最多的,C也很多,B最少。同学你猜对了吗?
我们接下来把问题抽象化。假设有n 位合作人,任何一种合作组合例如第1位和第2位合作组合记为{1,2},是一个有序集合的概念,对于组合 s 来说,它的收益表现记作 v(s)。假如某集合 s 包含 第 i 位合作人,则第 i 位 合作人在这种情形下的贡献为 v(s)−v(s\textbackslash{i}),解释为集合 s 的效益减去 集合 s 扣除第 i 位合作人后的新集合的效益。
因此我们可以得到第i 位合作人的贡献期望为:
这里Si 是所有包含 i 的所有子集的集合, P(s)是对应合作顺序组合 s 的出现概率。可以这样计算该概率,首先 s 中 前|s|−1 合作人顺序进入合作集合,然后是合作人 i 加入集合,最后是后 n−|s|个合作人加入合作集合。这样构成了该种顺序组合,这样有(|s|−1)!×1×(n−|s|)! 种,一共则有 n! 种顺序组合,所以有:
最终的shapley值公式即:
到这里,关于shapley值方法的公式就已经推导完毕了。
值得一提的是,Shapley值方法是有严格的公理化体系支持的,感兴趣的同学可以自行检索学习。Shapley值方法很公平,在经济、金融、管理、政治中都有不少的推广应用。比如多方金融投资合作如何分配利润;不同人数的党派团体如何更科学地设置投票通过票数;安全管理团队中按照重要性对事故中的不同责任方进行责任判定等等。在机器学习中,也可以使用Shapley值方法对不同的特征进行重要性评价,进行特征的筛选工作,即使是深度神经网络这种黑盒模型也可以获悉不同特征对于整个算法的贡献分布。
在文章的最后,需要多提一句,Shapley值方法虽然很好,但对于n 值很大的情况,计算很不友好,因为需要获悉所有组合集合的获益,这种组合集合一共有 2^n 种,不论是数据获得还是后续计算,都有不小的成本开销,所以有几种补救办法,有的是将合伙人分成若干组,按照组为最小合作单位进行计算;有的则是只考虑 n−1 大小的组合上增加合伙人带来的边际贡献等。无论是何种方法,本质上都和本文核心内容类似。
编辑:黄继彦数据派研究部介绍
数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享和实践项目规划,又各具特色:
算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;
调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;
系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;
自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;
制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;
数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;
网络爬虫组:爬取网络信息,配合其他各组开发创意项目。
点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”加入组织~
- 快看点丨原创 | 一文读懂机器学习中的shapley值方法
- 中国财政部:保障新冠疫情防控经费
- 三旺通信: 上海荣正企业咨询服务(集团)股份有限公司关于深圳市三旺通信股份有限公司2022年限制性股票激励计划首次授予相关事项之独立财务顾问报告
- 全球看热讯:[快讯]好莱客公布年度业绩预告
- 电脑上回收站清空后还能恢复吗?回收站被清空了怎么恢复回来?
- torrent是什么文件?torrent文件怎么打开?
- 720p的分辨率是多少像素?720p和1080p摄像头区别是什么?
- 移动的服务密码是啥?移动的手机号初始服务密码是多少?
- 光信号闪红灯是什么意思?路由器突然闪红灯上不了网怎么办?
- 怎么给压缩文件加密?压缩包文件如何设置加密?
- 家电行业进入多元化 我国智能家电市场规模进一步增
- 佛山向欧盟出口供暖设备同比增长154.4% “暖家电”
- 格兰仕家用电器持续增持 占公司总股本1.24%
- 面板厂商持续加码产能 OLED能否迎来爆发式增长?
- 洗鞋机是一匹“黑马”吗? 能否创造下一个风口
- 8月空调行业最忙碌 它们将哪些新动作又将如何惊艳
- 快看点丨原创 | 一文读懂机器学习中的shapley值方法
- 别怪世界杯!皇马13人一落千丈,安帅愁眉不展,3月
- 天天热点!4年1.06亿续约,简直太划算!场均盖帽联
- 动态:抖音生活服务发布打击假冒服务商公告
- 蔚来AR眼镜专利公布:可稳定显示车载信息
- LGD将LCD电视产量减半
- 从一年9700万变为300万 国米失去争雄意甲一大优势
- 国美电器董事长黄秀虹:未来将升级线下门店 线上线
- 最资讯丨AirHub M1以突破性技术,带来颠覆体验
- 著名武术家及演员于海去世 演员吴京发文悼念
- 今日快讯:元气森林架构调整:拆分巨型产品事业部
- 全球信息:燕文物流深交所IPO首发将于1月18日上会
- 大年初一预售票房破亿元 春节档助上市影企业绩加速
- 李东生卸任TCL华星光电法定代表人,仍担任董事长
- 京东方精电:预计年度纯利大幅增长70%至90%
- 微动态丨预估2023年OLED折叠手机铰链产值将逾五亿美元
- 抖音 快手与央视达成合作 除夕夜可收看总台春晚
- 环球最新:用心用情 新意频现!《2023年春节联欢晚
- 焦点速读:拼多多上线“春节不打烊”活动 发放满20
- 中国财政部:保障新冠疫情防控经费
- 享道出行:预计本地出行需求同比去年大涨50%以上
- 全球关注:画说民俗|腊月二十六割年肉
- 环球观热点:乱了!大巴黎15天2次输球,梅西内马尔
- 焦点速讯:威少最后一攻没被犯规!湖人76人裁判报告
- 当前热议!利雅得全明星队大名单:C罗领衔再战梅西!
- 全球实时:亚洲新骄傲!日本飞翼4数据高居英超前5
- 天天快看点丨名记晒詹姆斯交易5大方案:76人太阳在
- 热议:再次留洋?广州队被执行一千多万元,韦世豪与
- 天天新资讯:澳网惨烈一战!抢7+决胜盘抢10,种子
- 每日快讯!解约C罗后曼联7连胜,滕哈格腰杆硬了,将
- 三旺通信: 上海荣正企业咨询服务(集团)股份有限
- 96分钟速胜过关!梅总仅丢3局送蛋横扫,强势挺进澳
- 【世界热闻】国乒大练兵派20人出战!刘国梁目的明确
- 天天快播:让文化珍品惠及大众,川籍书画家赵蕴玉艺
- 天天新资讯:自动禁赛一场!琼斯累计4次违体犯规无
- 成都哈哈曲艺社封箱大典公演 欢乐好比过大年
- 全球报道:兔年大年初一预售票房破亿!春节档7部影片
- 焦点关注:冬窗速览:本泽马拒绝利雅得胜利,欧洲新
- 抖音电商严打食品功效虚假宣传
- 快资讯丨史上最贵租借球员,切尔西签下菲利克斯当真
- 电脑上回收站清空后还能恢复吗?回收站被清空了怎么
- torrent是什么文件?torrent文件怎么打开?
- 720p的分辨率是多少像素?720p和1080p摄像头区别是
- 移动的服务密码是啥?移动的手机号初始服务密码是多
- 光信号闪红灯是什么意思?路由器突然闪红灯上不了网
- 全球看热讯:[快讯]好莱客公布年度业绩预告
- 怎么给压缩文件加密?压缩包文件如何设置加密?
- mts是什么格式?mts文件怎么打开?
- cookie是什么?cookie有什么作用?
- 计算机系统的组成是什么?计算机系统由哪些部分组成
- c2c模式是什么意思?c2c模式的优势和劣势是什么?
- 环球速看:曼联引援5大目标曝光,滕哈赫决意挖空荷
- 【热闻】【电诉宝】商品存质量问题不处理?用户投诉
- 世界快报:滴滴出行:即日起恢复新用户注册
- 【世界播资讯】范曾书画特展北京揭幕,99件力作献礼
- 60件(套)漆艺作品亮相金沙 呈现数千年的“漆”彩
- 【环球报资讯】“四川造”电影《成都假日》点映,主
- 环球短讯!腾讯 美团等大厂“锦衣卫”出手 这些员
- 苏宁易购全民嘉年华是什么活动?活动玩法有哪些?
- 全球观点:淘宝折后价能改吗?怎么定价?
- 世界快资讯丨黑色星期五是什么活动?为什么要参加亚
- 焦点短讯!淘宝双11要筹备多久?营销活动怎么报名?
- 全球观察:淘宝折扣价是什么?店铺价格应该怎么设置
- 折后价怎么获得?故意凑单后退货行吗?
- 今日看点:惠州AGC新厂将在今年第四季度投产
- 京东双十一活动怎么参加?报名要求是什么?
- 天天速讯:苏宁双11服务有什么要求?30天价保生效范
- 世界观点:京东双十一活动怎么报名?需要注意什么?
- 资讯:苹果新专利能够缓解折叠屏手机内屏开裂问题
- 焦点日报:苏宁双十一有哪些玩法?详细规则是什么?
- 刘德华吴京联袂献声 《流浪地球2》发布主题曲《细
- 每日短讯:Apple Watch 将搭载 LG新型面板技术
- 【全球播资讯】商竣程澳网过关!父亲曾是李铁队友入
- 环球最新:沈阳故宫推出“送福”“报喜”主题展览迎
- 环球百事通!国产首台FMM工艺设备出货!
- 精彩看点:切尔西收获一亿先生,和一堆问号
- 世界热点!富士康与和硕宣布2023年将向东南亚扩张业
- 焦点报道:56分钟横扫过关!小花郑钦文送蛋晋级,强
- 信息:百惠证券:MACD续背驰 恒指阻力看22000
- 友达、群创启动新一波人事精简计划
- 最新快讯!绵阳新型显示产业入选省级战略新兴产业集
- 【全球热闻】【零售研究】2022社区团购盘点:旧秩序
- 天天报道:总投资超20亿元 豪雅光掩膜版项目签约落
- 每日视点!网经社莫岱青:部分生鲜电商始终用烧钱培
- 环球快看点丨巴萨收获哈维时代首冠,和升级版加维
- 关注:从黄龙山水中看到中国智慧 纪录片《瑶池黄龙
- 网经社张周平:各跨境电商综试区要基于产业基础形成
- 【世界新视野】网经社朱秋城:数据透明化和规范化会
- 观察:河南:2022年出口手机2547.9亿元
- 世界快讯:海信视像2022年净利增长45.13%~55.13%
- 17岁商竣程已收74万巨奖!人民日报+央视狂赞:中国
- 世界简讯:消息称Apple Watch定制microLED屏幕将交由LG生产
- 焦点热讯:《中国奇谭》首个原创故事《林林》 对话
- LCD电视面板价格呈压力位
- 看热讯:不提供具体的订单明细 小电科技被质疑据造
- 今日热文:快手与淘菜菜合作发起"新市井中国节" 线
- 【天天速看料】2023年春晚主持人阵容首次发布!
- 今日热闻!抖音生活服务2023年目标1500亿 约为上一
- 世界讯息:元宇宙科技传播智库:《挖掘新动能,构建
- 热头条丨淘宝正式开启春节不打烊活动 推出6大服务