-
- 数据流通实现“可用不可见”?腾讯巧夺“天工”
- 来源:程序人生
数据孤岛,这个过去一直横亘在业界的一大难题,终于有了能规模化落地的解决方案。随着数字经济的不断发展,释放数据要素价值被摆在了更重要的位置。此前,由于数据隐私和数据安全的要求,各行业、企业间的数据无法有效融合,但现在,大数据与AI等技术的快速演进,从技术上让数据可实现“可用不可见”,数据流通正在变得可行。与此同时,在国家的相关政策指导下,更加完善可靠的数据监管机制正在建立,安全完善的数字新业态正在推进。新技术催生新的数据生态,如何利用新技术来推动数据要素价值的发现是当前数字化领域产学研各界的重要议题。作为一个庞大的大数据拥有方,腾讯没有理由不提出数据安全和流通的技术方案。腾讯的数据和算力规模在不断扩增。比如,腾讯会议完成了3亿场会议,腾讯日活的微信用户有近10亿,支撑腾讯所有业务的IDC服务器数量高达100万台。腾讯大数据平台日接入数据量超55万亿条,如果不做压缩,有近8-9PB数量级规模数据,而日实时计算量超65万亿级规模,有500万核算力在提供计算支撑,日任务分析数达到1500万个。这意味着,腾讯大数据处理平台也需要相应的技术演进能力。2019年,腾讯大数据开始规划第四代计算平台,直到2020年4月18日,终于推出涵盖批流融合、数据湖、联邦学习等新型技术,围绕安全、智能、统一理念的“腾讯大数据-天工”数智融合计算平台。具体而言,天工平台实现了保护数据隐私,并提供联合数据分析、联合数据建模等能力,实现数据的互融互通,释放数据价值。在智能化方向,作为腾讯大数据平台的大脑,天工将基于平台本身的日志、事件、指标特征等数据,通过机器学习算法,实现对平台运营的智能支撑,达到平台的自动驾驶。此外,天工聚焦统一平台的研究,包括大数据和人工智能的统一,数据处理和数据挖掘统一,并提供一站式数据处理交互体验。在数据隐私和安全保护上,备受关注的是,腾讯重磅发布了基于隐私计算技术的AngelPowerFL安全联合计算平台。隐私计算技术的基本原理是,在保证数据不外泄的前提下,进行数据的安全分析及计算的一种新技术,强调流通过程中数据的“可用不可见”、“相知不相识”。目前业界的主流技术方案,包括多方计算、联邦学习、可信计算三大技术流派。在技术能力方面,腾讯Angel PowerFL安全联合计算平台拥有全栈的联邦机器学习和深度学习功能,支持多方联邦逻辑回归、XGBoost、PCA、用户自定义神经网络模型,支持多方联邦模型在线serving和模型管理,支持联合数据分析。Angel PowerFL平台提供多种隐私保护机制,包括同态加密、秘密分享、差分隐私、可信执行环境(如SGX)等,通过多种隐私保护机制的融合形成一个通用型隐私计算平台,在不同的应用场景里给用户提供选择不同的安全保护级别。在跨机构的隐私计算场景里,跨公网通信是隐私计算系统的瓶颈。为解决通信问题,AngelPowerFL平台采用消息队列作为通信管道,例如Pulsar MQ。MQ模块可以有良好设计的拥塞控制和消息持久化功能,可以进一步增强系统稳定性。在MQ的基础上采用了高效的消息压缩算法来减少通信开销,提高多方交互效率。为方便产品迭代和应用部署,Angel PowerFL平台采用了计算层和服务层分离的设计,支持多种方式部署,支持灵活资源扩缩容。所有的服务组件均以容器的形式部署在K8S集群上,最大程度简化部署和降低运维成本,可以方便地实现服务的容错与扩缩容。基于K8S的部署方案,还保证了联邦深度学习的应用,方便对接TensorFlow和PyTorch等常用深度学习框架,以及在K8S集群上进行分布式深度学习模型训练和推理。Angel PowerFL平台以底层技术的方式与腾讯云神盾联邦学习产品结合,面向企业联合数据建模的需求场景,推出了神盾-联邦机器学习平台产品。产品针对机器学习算法进行订制化的隐私保护改造,保证数据不出本地即可完成模型训练。Angel PowerFL作为腾讯云数据安全网络(DSN)底层隐私计算引擎,为金融、政务等多个应用场景提供联邦学习平台,助力释放数据融合价值。值得一提的是,腾讯在未来将会开源Angel PowerFL平台。对普通开发者而言,它的上手门槛如何?腾讯数据平台部AI平台部总监陶阳宇告诉CSDN,AngelPowerFL下一步的重点就是改进易用性,包括全栈功能更易用,提供微服务化,以及基于Docker的云原生,支持一键化部署,易于开发者将平台能力集成到大数据业务上。他们希望开发者使用联合计算平台就像用Excel一样方便。采用自研隐私计算技术,天工平台从机器学习到大数据分析为各个场景提供全方位保护,去中心化的架构则能避免单点隐私泄露风险。目前,天工可以支持千亿级规模的海量数据训练,性能参数领先业界5倍,在此基础上,提供3072bit业界最高强度加密和TEE硬件双保险,最大限度确保数据安全。目前,腾讯的隐私计算技术已在医疗、广告、金融、风控、政务等领域得到了快速应用。以某大型金融服务机构基于腾讯Angel PowerFL平台构建的联邦金融风控系统为例,它成功实现了原始数据特征不传输的情况下,多方数据源联合构建出更准确的信贷风控模型,并已在大规模商用场景中落地。通过跨机构A和B两方协作,其中A方拥有用于建模的部分特征,B方也拥有用于建模的部分特征以及标签信息,在数据不传输出本地的情况下,A方和B方进行联合建模。AngelPowerFL系统首先对A和B双方样本进行安全的样本对齐(PSI),选取对齐的样本用于模型训练,接着对A和B拥有的特征进行联合特征选择和特征工程,然后通过安全联邦逻辑回归算法协议训练出风控模型,用于后续的预测打分,并与金融业务系统对接。Angel PowerFL联邦算法协议采用了去中心的架构设计,不依赖第三方中心节点,进一步增强了安全性和实用性。相比于传统的单侧建模,腾讯Angel PowerFL联邦风控在AUC和KS指标上分别有5%和16%的提升,现在提升了金融风控效果。另外,Angel PowerFL系统基于腾讯Angel分布式机器学习平台开发,支持海量数据的高性能联邦模型训练,十万数据规模只需十分钟左右完成模型训练,同时支持在线的模型推理服务,用于金融业务实时需求场景。而在广告行业,某广告平台拥有用户的画像数据和点击行为数据,与之合作的广告主则拥有用户的实际购买等转化数据。通过Angel PowerFL平台,广告平台和广告主联合进行推荐模型的训练,实现更精准的广告定向投放。在广告平台和广告主两方协作构建个性化推荐模型过程中,广告平台方拥有用于建模的数据,广告主方拥有用于建模的数据和标签信息。双方基于对齐后的样本数据,通过Angel PowerFL系统协作训练推荐模型(例如,XGBoost模型),接入推荐业务系统。广告推荐模型通常需要大规模的数据集,Angel PowerFL在一个小时左右完成千万级数据的XGBoost模型训练,十分钟左右完成千万级数据的预测,模型的准确率(Accuracy)在95%以上。联邦广告推荐系统相对单方独立建模系统效果提升15%。此外,医院之间的数据无法共享,但通过隐私计算平台,就可以把多家医院的用户信息汇总到一起做整体的模型训练,在保护患者个人隐私的同时,又能进行总体病例分析。如此,就能把三甲医院医生的治疗经验“复制”到社区医院等机构。政府行业也需要隐私计算技术来降低跨机构间数据融合的阻力,特别像京津冀、长三角地区最近就在考虑跨平台、跨行业进行数据共享。未来,腾讯还要打造一套基于基础设施平台的生态,而这又是一个庞大的系统工程。因为推动和建立完善的数据流通体系,只有单纯技术平台远远不够,数据流通的生态需要各方共建,数据生产要素才能真正进行市场化配置,为未来的数据经济打下坚实的基础。