白话学习 白话“联邦学习”

随着监管当局越来越重视对个人隐私的保护,一个叫做“联邦学习”的术语应运而生。边肖,作为一个数据的老菜鸟,自然不会错过学习这个新名词炫耀的机会。“联合学习”是解决特征标签分类问题的一套解决方案。既然是解决方案,就一定有痛点。所以要了解数据应用的痛点。
做过精准营销模型和信用评分模型的人都知道,要建立这种分类模型,需要建立如下图所示的宽表。在表中横向称为观察,即代表每个客户;纵向特征,如“性别”、“信用卡开户数”、“是否逾期”。如果所有数据都属于一个企业,只需要使用“是否逾期”作为标签等特征建立分类模型,如logistic回归、随机森林等。
从上表可以猜测,前三栏很可能来自电商A,后两栏和标签来自某银行b,以前商业机构真的不把自己收集的个人信息公开当回事,有无数种“联合建模”。现在监管严格了,怎么办?一个电商着急,这么多客户数据怎么实现?B行也着急。人们需要他们的数据!所以,《联邦学习》高举转移学习,走过祥云。等一下,老菜鸟看到“垂直联合学习”算法的第一直觉,大概是一个覆盖着迁移学习的“渐进回归”。如果是“渐进回归”,则分为以下三个步骤:
将A电商和B银行自有的数据集按照样本对齐。因为带有缺失值的样本是不能参与模型构建的。因此第6个样本是需要删除的;基于B银行数据用逐步回归的思路进行建模。因为B银行有标签和部分特征。做法就是用“是否逾期”作为标签,与“历史逾期次数”、“信用卡开户数”分别做逻辑回归,选择信息含量最高(比如残差平方和最小、AIC或BIC最小等)。如果第一轮选择了“信用卡开户数”这个特征,那就用该变量与标签建立模型,得到该模型预测的残差。其中第6个观测是不参与运算的。如下如所示;将B银行的残差这一列传到A电商。这列残差就相当于标签,与“性别”、“月均消费”、“目前积分数量”逐依建模。同样选取信息含量最高的变量纳入模型。假设此次选取的变量是“月均消费”,那以该变量入模,再次计算残差,传递给B银行。然后在上一次建模中没有被选择的特征中重复第2步。如此往复,直到新纳入的特征提供的信息增益微乎其微,不能满足纳入模型的阈值,模型学习结束。看完这个,读者可能会好奇。边肖撕掉“联邦学习”华丽外衣的意图是什么?首先需要说明的是,老菜鸟看了大神的论文,只猜到了它的算法。其次,如果不幸猜对了,使用上数方案有些顾虑。读者知道“逐步回归法”不能解决共线性问题,所以模型稳定性差。解决共线性问题,需要电商A和银行B互相传递特征,违反了个人隐私保护的规定。当然,做一个精准的营销模式并不在乎模式的稳定性。几天算几天,反正可以快速迭代;但是做信用风险评估模型的人要注意。哦,老菜鸟好像听到了读者的笑声。"怎么会有人用这个东西做信用评估模型呢?"随便列个客户白名单,我们家里都有信用评分卡。". "是的,读者是对的,小的就免了。".
“等一下,这里是横向联邦研究。调侃完了再走吧”。读者既然开口了,老菜鸟就继续猜测这个算法的实现。先说应用场景。原文中说“当两个数据集的用户特征重叠较多,用户重叠较少时,我们横向(用户维度)划分数据集,取出用户特征相同但用户不同的数据进行训练”。这是大牛的语言,老菜鸟的理解是A是做消费金融一年多,赚了不少钱的城市商业银行。银行B和银行A是兄弟,所以看在眼里,心里佩服。他们必须启动同一个项目,但是如果没有风险控制模型呢?人民银行A测试了这些风险表现数据却花了真钱。b:自己再来一次,我舍不得花这笔钱。而且,不符合社会效益最大化,是吗?B银行在思考如何获得A银行的经验?以前,风险绩效数据建模似乎可以“共享”一些类似的客户群体。“什么?以前不行,是老菜鸟的道听途说。先说如何帮助B线建模,假设我们有下图所示的数据。首先,你不能把A线的特征数据给b线。

推荐阅读