观点丨基于自我主权身份建立负责任的数据经济

本文为UC伯克利分校的计算机科学教授、Oasis Labs创始人宋晓冬在第八届万向区块链全球峰会【积“土”成山:隐私计算】上的演讲内容。根据活动直播速记整理,略有不影响原意的删改。仅代表嘉宾个人观点,不代表万向区块链立场。

大家好,我是宋晓冬,UC伯克利分校的计算机科学教授,也是Oasis Labs的创始人,非常感谢万向的邀请。我分享的主题是《自我主权身份与数据经济:建设负责任的数据经济》。

众所周知,数据是现代经济的重要驱动力,也是AI机器学习的命脉。如今,数据收集量与日俱增,个性化数据价值的GDP的占比已非常之高,全球数据经济也呈现了指数级增长。然而很多数据是极其敏感的,如何正确使用这些敏感数据已成为个人及机构所面临的重大挑战。

个人已经丧失了数据控制权。在不知情或未经允许的情况下,个人数据屡遭出售和滥用。人们普遍认为数据被他人所使用的前提是数据匿名化,然而大量研究表明,数据匿名化本身并不足以保护用户的数据隐私。《纽约时报》曾做过的一项案例研究显示,从一个匿名的手机位置数据集之中,能够追踪到前总统特朗普特勤局特工的位置,进而定位特朗普本人的所在地。

与此同时,大量机构也在持续遭遇大规模数据泄露的困扰。在很多此类攻击中,攻击者能够窃取到数亿甚至数十亿用户的敏感信息。更重要的是,出于隐私保护问题,许多有价值的数据仍然被困在数据孤岛之中,无法得到有效的应用。

随着数据经济的发展,这些问题将变得更加严重。因此,我们迫切需要一种新的范式,我称之为“负责任的数据经济”。负责任的数据经济定义是什么?其目标和所遵循的原则又是什么呢?

首先,我们必须建立和执行数据权利,这些数据权利构成了数据经济的基础,同时也有助于防止数据的误用和滥用。同时,也要确保数据创造价值之后可以公平地分配,使用户能够从自己的数据中获得足够的收益。最重要的是实现有效的数据使用,从而最大程度地提高社会福利和经济效率。

建设负责任的数据经济需要我们做出范式转变,从以平台为中心、中心化的Web2转向以用户为中心、去中心化的Web3新范式。

数字世界中包含资源访问、数据访问和数据计算等关键控制点,在Web2系统中,它们都由中心化的第三方所控制,例如用户身份由服务提供者管理,用户数据储存于集中化的数据中心(数据孤岛),用户数据往往在用户不知情的情况下被机构所使用。因此,在Web2世界中,用户完全无法控制自己的数据。

在Web3世界中,我们希望实现范式变更,从中心化的控制转向去中心化的用户控制,而这一切都是通过去中心化身份、去中心化访问控制以及合规的去中心化计算来实现的。这样一来,就可以实现自主身份、自主数据访问和自主计算。也就是在Web3的世界里,用户可在不依赖任何中间机构的情况下控制数据的使用。

先看一下去中心化身份,也就是所谓的DID。在Web1时代,用户往往以用户名和密码作为身份验证的工具;在Web2世界,用户依赖于第三方服务提供商来帮助他们进行身份管理。而Web3的去中心化身份允许用户通过公钥加密来控制自己的身份。本质上讲,用户只要掌握私钥,即可使用并控制自己的身份。

因此,有了去中心化身份,我们就可以使用更加先进的技术来实现更多的功能。在此,我想和各位简单分享一下我们最近所做的关于匿名凭证的项目。有了匿名凭证,凭证颁发机构就能够通过隐私保护的方式为用户授予凭证,而用户可以通过这些匿名的凭证来证明自己的某些属性。用户同样也能够通过隐私保护的方式来使用这些凭证,在保持匿名的同时证明自己的某些属性,因为这些属性在他们获得证书凭证之前就已经得到了证明,用户同样能够以保护隐私的方式来使用这些凭证,从而使得他们在整个过程中保持匿名,但是同时也可以证明。比如说自己超过了 18 岁,已经成年了,也可以证明自己的其他属性。

在最近的SNAC工作研究中,我们构建了第一个基于zkSNARK的匿名凭证,实现高效的链上验证。在这个案例中,用户获得匿名凭证后就可以生成证明,比如证明自己已经超过18岁,或者是伯克利大学的学生等等。这些证明继而会通过智能合约在区块链上进行验证。这样一来,用户就可以通过证明自己所拥有的某些属性来使用某些服务。

SNAC也利用了先进的密码学技术,例如通过递归证明对证明进行批处理,从而进一步优化对于这些匿名凭证的链上验证效率。同时,SNAC也支持撤销、审计以及CA证书的匿名性。基于zkSNARK的链上验证和证书凭证,一个很好的应用场景就是在DeFi中做KYC,在这种情况下,用户进行KYC后会获得相关机构出具的匿名凭证,以证明自己已经通过了KYC。同时,用户还可以凭借匿名凭证来使用链上DeFi服务和应用,并证明自己已经完成了KYC。这一方面保护了用户的隐私,另一方面也满足了合规性要求。

通过新的加密学方案,SNAC实现了相较之前的非基于zkSNARK方法的指数级性能提升,也首次实现了DeFi上的KYC,这就是自我主权身份和匿名凭证帮助用户保持对于自己身份的控制,并通过隐私保护的方式使用其他服务的很好范例。

用户到底如何通过数据和对于数据的计算来解锁一些其他的功能?首先,要实现自我主权的数据和计算,需要开发新的解决方案,在Web2中的传统解决方案本身不足以满足这样的要求。Web2只有两种解决方案,其一是数据只有在不被使用或是发送过程中才会被加密,也就是说数据只会在不被使用和发送过程这两种状态中得到保护,其二是数据要么不会得到使用,要么是在使用后被复制,这使得数据所有者很难对数据的使用进行控制。正如我刚刚所提到的,数据匿名化往往不足以保护用户数据隐私,因此在Web2世界中,用户也无法控制对自己数据的使用。

相反,在Web3的世界中,我们需要开发全新的技术来保护使用中的数据,而这又包含了两个层面,一是在不复制原始数据的情况下控制数据的使用,二是保护计算输出值不会泄露敏感信息,并保证数据使用的合规性。这样一来,用户就可以控制对于自己数据的使用,而无需依赖任何中心化的第三方。

“负责任的数据技术”在研究和实践领域取得都获得了可喜的进展,许多不同类型的技术可以结合在一起,从而帮助我们实现负责任的数据使用。安全计算通过使用安全硬件、密码学方法,在计算过程中保证数据的保密性;拆分隐私能够保证计算的输出不会泄露关于输入值的敏感信息;联邦学习则支持分布式的数据分析和机器学习,同时保证数据不会离开用户的设备;分布式账本可以提供不可篡改的数据使用日志,确保数据在使用过程中始终是合规的。

下面我会通过一个案例向各位展示安全计算技术如何通过隐私保护的方式帮助用户保持对自己数据的控制。最近,Oasis Labs联合Meta以及一些其他大学共同完成了一个研究项目,这是同类项目中第一个大规模的、有关AI模型的公平性研究项目。

AI模型现在非常流行,例如Meta会利用AI模型为用户进行推荐或是提供个性化服务。从社会的角度来说,有必要知道这些AI模型在广泛的使用过程中是否公平,抑或是有所偏见。那么如何判断AI模型的公平性呢?

为评估AI模型的公平性,数据计算需要基于用户信息所推演出来的结果以及敏感属性。在这一案例中,模型提供者Meta能够知道一个特定用户ID在AI模型中的输入值,但并不知道用户的敏感属性,比如性别。而用户则可将其性别相关的敏感信息提供给某个调研方。衡量AI模型的公平性可以使用不同的指标。举一个简单的例子,我们可以将用户性别进行计算,比较一下平均推理的结果,通过计算平均推理结果,就能得知AI模型是否公平。

这里的关键问题在于如何通过隐私保护的方式衡量AI模型的公平性。在这样的情况下,模型提供者知道用户推理结果,但并不了解用户的敏感属性;而调研人员则是知道用户的敏感属性,但不知道模型推理出来的结果是什么。因此,我们需要通过来自不同数据源的数据计算出结果是否公平,同时确保用户的隐私始终得到保护,这就是我们最初在和Meta合作时所设立的研究目标。

我们所开发的技术结合了不同的隐私计算技术,首先是安全多方计算,调研者在多个协助者之间秘密分享用户的敏感属性。

模型提供者Meta为用户的推理结果生成同态加密的结果,同时也提供零知识证明,随后将同态加密的计算结果发送给协助者。协助者利用调研人员提供的用户属性的信息和模型提供者的模型推演结果,一并计算并判断AI模型是否公平。同时,协助者也会使用差分隐私来添加噪声,从而进一步保护用户的数据隐私,最终通过计算之后得到的研究结论是可以通过隐私保护的方式得到公平的计算结果。这是隐私计算技术在现实世界中第一次大规模部署,用于对于AI模型公平性的衡量。

同时,我们也开发了新的开源平台CoLearn,目的是使去中心化的数据科学变得更加容易。因为我们希望能够弥合科学界、研究界、现实世界之间的鸿沟。CoLearn还能够使协议在统一的框架中组合,并构建一个精心设计的标准化、去中心化的编程抽象预设;它还利用了近期密码学和隐私保护方面的相关技术。

CoLearn为去中心化数据科学提供统一的平台,使新协议从设计到部署整个过程,不论是时间角度还是部署人员的精力角度,都减少了几个数量级。从时间上说,之前一个月的工作,现在只需要几周就可以完成。同时,开发人员也更容易利用已有的加密协议,完成新协议的部署和设计。目前,CoLearn也已经集成了许多应用于隐私保护、机器学习、联邦学习等最先进的加密协议。

如将隐私计算和区块链相结合,我们就能创造出一种新的资产,也就是数据资产。区块链能够保证用户数据不可篡改且可审计,而通过隐私计算则保护了数据使用过程中的隐私。将数据以及相关的策略封装在一起,创建一些规范的标准,再把它打包成资产,使得用户能够从自己的数据资产中获益。

通过数据资产化,Oasis能够打造新的负责任的数据经济,使用户和企业能够拥有数据主权,并从数据资产中收获价值。

目前的用例之一就是基因组数据。众所周知,用户的基因组数据是最为隐私的数据源之一,其价值也非常高。用户在将自己的数据提供给相关的数据分析服务机构后,会非常关心自己的基因数据究竟被用到了哪里。Oasis首次为用户提供了一个平台,使他们拥有对自己基因组数据的控制权,并从自己的数据中获益,同时也能保证数据隐私。

将不同的组件结合一起之后,社区就可以组成数据共同体,或者更进一步的数据DAO组织,用于去中心化的数据科学研究。数据的所有者和数据的产生者可以用指定的策略对数据集进行管理,比如加入某些数据DAO组织,而这些数据DAO组织可以指定如何使用DAO中的数据以及如何共享从数据中获得的经济收益。

数据使用者、数据分析师可以搜索这些数据DAO组织,找到他们所需要的数据,然后在不同的数据集和数据源上编写自己的数据分析和机器学习程序、模型。数据分析的机器学习程序可以在分布式安全计算平台上运行,并保证程序是符合预期策略的。通过这种方式,能够减少数据使用的摩擦,消除数据孤岛,并实施更强大的安全和隐私保护。

我坚定不移地相信,在十年后,数据信托、数据共享将会成为使用数据源的主要方式,实现所有者经济,使用户作为数据的所有者和合作伙伴,从数据中获得经济收益。在十年后,新形势的数据信托和数据DAO组织将创造巨大的经济价值。

总结一下,通过Web2的中心化控制转变为Web3的去中心化控制,我们可以帮助用户获得数据的使用权,而无需依赖任何中心化的第三方。通过这样的范式转变,能够真正实现负责任的数据经济,而互联网的未来也需要建设负责任的数据经济。2020到2030的十年,就是建设负责任数据经济的十年。感谢各位的聆听!