产业安全专家谈丨企业如何应用“联邦学习”打破数据孤岛，助力业务创新？

发布者：腾讯安全

发布于：2020-05-07 17:11

随着云计算和大数据技术的不断发展，以人工智能为基础的数据分析与数据挖掘让大数据释放出巨大价值，已成为企业业务创新、业绩增长的重要手段。

然而，企业在现实中的数据利用却困难重重，在数据价值开发中，企业究竟面临哪些痛点？企业如何打破困局，充分发挥大数据的潜在价值，助力业务创新？由腾讯安全联合云+社区打造的「产业安全专家谈」第十七期邀请到腾讯安全大数据创新中心负责人罗松为大家解析企业数据应用的现实路径。

Q1：产业互联网时代，数据在业务发展中越来越重要，企业在数据应用中有哪些痛点？

罗松：企业数据应用最大的痛点是数据共享需求与数据隐私之间的矛盾。

随着科技的发展、业务的创新，很多企业产生了大量数据。但在企业之间，甚至企业内部，数据之间常常彼此割裂，存在明显的“数据孤岛”的现象。不论对大企业还是小企业，为了提升业务质量，提高基于数据的决策能力，从而取得竞争性优势，就对在内外部进行数据融合产生了较大的需求。但是一个现实的问题是，整个社会对隐私保护越来越关注，监管对使用数据的要求也越来越严格。在这种情况下，企业急需有一套比较好的技术和方案，在隐私保护和数据合规的情况下进行内外部的大数据合作，这也是我们推出联邦学习应用服务的初衷。

Q2：联邦学习是如何解决企业数据应用困局的？

罗松：传统的联合建模需要把数据集中到一起，“可见才可用”，难以满足数据隐私和合规要求。联邦学习通过数据加密、分布式机器学习等前沿技术的综合运用，让数据在不出私有域的情况下进行联合建模，数据融合过程中只交换机器学习的中间值，实现了数据和特征变量的“可用不可见”，有效解决了数据运用与隐私保护、数据合规之间的矛盾。

Q3：联邦学习为什么要联合专业团队？企业自己做的难点在哪里？

罗松：联邦学习的本质是在不同数据生产方之间进行了数据融合以及联合建模（数据不出各自的数据中心，但是可以实现融合建模的效果）。单凭一方是无法进行联邦学习的，因为没有其他的数据来融合。同时联邦学习的技术要求较高，需要长期且较大的成本研发投入。选择具有技术和数据实力的专业团队，能够更便捷高效地接入联邦学习，降低成本。

Q4：在具体项目中，企业和腾讯安全是如何合作的？共享了哪些数据特征？

罗松：联邦学习建模最大的特点是数据可用不可见，实际上双方交换的是机器学习的中间值。

目前，在金融领域，腾讯安全已与江苏银行达成了首个合作。腾讯安全具有大量的信息流维度数据，基于丰富的黑灰产库沉淀了3000多个定义风险种类的特征变量，并构建了相应的特征工程，基于资金流相关纬度的数据也沉淀了相应的特征变量和特征工程，双方通过联合建模对这些特征变量进行融合，只是交换了机器学习的中间值，也就是误差和梯度，达到了数据可用不可见的效果。

通过联合建模，江苏银行实现了信用卡智能化管理，在信用卡接入规模化、盈利规模化方面取得重大突破。

Q5：当前联邦学习有多个不同架构和产品，不同机构的联邦学习架构是否存在技术标准差异，存在不兼容的情况？

罗松：“联邦学习”的概念最早于2016年由谷歌研究科学家H.Brendan McMahan等提出，随后，谷歌、英伟达等国外科技公司相继推出有关联邦学习的算法框架、并发布相关应用产品，如英伟达基于联邦学习开发的Clara平台就在医疗领域发挥出巨大价值。

腾讯是国内较早研发联邦学习技术的企业，由腾讯安全研发的联邦学习应用服务可以兼容微众银行联邦学习FATE架构和腾讯PowerFL技术架构，专注于上层的应用服务，实现业务智能化管理。腾讯安全联邦学习应用服务已经申请多项专利，拥有丰富的工程化工具集，解决方案处于行业领先水平。

Q6：企业在联邦学习的应用中怎么实现个性化的部署？

罗松：腾讯安全的联邦学习应用虽然采用了标准化云交付，但实质上提供的是个性化应用服务。在我们标准的技术建议书中，标准化部署后，联邦学习对客户的特定样本进行联合建模中，并自动选择对建模效果有显著提升的特征变量作为入模变量。因此，对每一个客户的具体业务，联邦学习提供的都是个性化的模型和服务。目前腾讯安全联邦学习应用服务还在持续优化中，当前一个200多个特征变量、十万数据量的模型训练需要大约5小时内完成，未来这个时间将进一步缩短，这也是我们下一步重点研发的方向之一。

Q7：当前，大数据在市场中的运用越来越多，在您看来，联邦学习的前景如何？未来能否在更广泛的领域得到应用？

罗松: 联邦学习的应用前景非常广阔，只要有数据融合的需求，只要在融合的前提下需要进行隐私保护，联邦学习都会找到非常适合的应用前景。

声明：该文观点仅代表作者本人，转载请注明来自看雪