如果从用户画像实现角度看数据隐私问题,是怎样的 | 万向区块链行业研究

前言:

万向区块链董事长兼总经理肖风博士曾说过,不管是元宇宙、区块链还是Web3.0,本质其实都是讲同一件事,就是人类社会在数字时代里的去中心化趋势。因此,无论在元宇宙里,还是Web3.0时代,个人数据成了个人资产,而个人数据隐私问题也成了“新世界”里的核心问题。

本篇将从“用户画像”的角度来探讨数据隐私问题,希望能对各位思考元宇宙或Web3.0的隐私安全保护,提供一个思路。

本文作者:万向区块链首席经济学家办公室 王普玉

本文审核:万向区块链首席经济学家 邹传伟


什么是用户画像?


用户画像最早由交互设计之父Alan Cooper提出,围绕四个要素:人物、时间、地点和事件将用户的信息标签化(如图1所示),再根据标签有针对性地收集用户社会属性、消费习惯、偏好特征等各个维度数据,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。

图1:个人信息四要素
图1:个人信息四要素

用户画像是一把双刃剑,方便了用户的生活,但同时又侵犯了用户的个人隐私。例如,当用户使用支付宝扫描二维码完成一笔交易支付,大数据分析工具会捕捉用户的消费金额、地点、时间等行为数据,而随着数据标签的积累和数据量的增加,实现个人信息四要素的关联,形成一副完整的用户画像,平台能够对用户行为进行分析,并实现精准营销。


用户画像标签是怎么设计的?


标签框架

市场目前有四种标签框架,分别是:

(1)基于营销触点的用户标签体系;识别用户的付费流程和付费意愿阶段,为营销提供明确的时机,例如阿里系的标签框架AIPL,将用户对品牌的认知阶段分为感知、有兴趣、购买和忠诚四个阶段,再根据四个阶段的营销动作制定细分标签。

(2)基于增长漏斗的AARRR模型;此模型又称海盗模型,由美国著名风险投资机构创始人戴夫.麦克卢尔提出,由Acquisition、Activation、Retention、Revenue、Refer(拉新、促活、留存、创收和分享)五个单词首字母拼写组成,识别用户所处的增长状态,对不同生命周期的用户执行不同的增长策略。广告主利用该模型,可以有针对性地对每个模块客户实施区别化的营销策略,提升转化率。

(3)基于用户价值的分层模型;比如RFM模型、ARGO模型,还有用户忠诚度和用户生命周期模型等。其中RFM模型被广泛应用于传统销售行业。RFM分别代表Recency最近一次消费、Frequency消费频次和Monetary消费金额。将每个维度划分为高、中、低三种情况,利用重要(价值、发展、保持、挽留)和一般(价值、发展、保持、挽留)要素8个要素构建出四个象限,直观的将用户划分为8个不同层次,识别用户的价值做用户分层,对不同价值分层的用户执行不同的运营策略。

(4)基于用户偏好的模型;基于用户对产品的功能或商品偏好做区分,提供营销人员信息去进行个性化服务,如房产领域的购房目的、区域位置、价格等。

标签的设计与应用

以典型的电商业务为例介绍标签的设计流程,总共三步,包括业务流程梳理,标签设计的商业目标确定,以及标签的设计。

(1)业务流程

业务流程漏斗包括启动APP、注册登录、浏览活跃、深度行为、付费和重复付费、到最后的沉默流失。如图2所示,根据业务流程梳理出每一步的考察维度。再根据用户在这方面的行为,去构建用户偏好的标签。

图2:根据业务流程的用户画像
图2:根据业务流程的用户画像

(2)商业目标

基于不同的商业目的,企业会尝试从不同维度构建标签,其目的大多一致,即通过精细化运营整体的交易金额。根据不同的商业目的,企业会对业务流程进行拆解。如交易金额可以拆分为新用户的交易额和老用户的交易额;达成交易的过程又可拆分为新增启动、注册、浏览详情、深度行为、最后到付费。对拆解出来的每一环节使用不同策略去提高交易金额,如图3所示。

图3:用户画像商业目标实现方法
图3:用户画像商业目标实现方法

(3)标签设计

用数据计算逻辑来看,只有当输入值满足限制条件,最终结果才能落到一个期望的范围内。因此,商业交易中,期望结果如图3中位于底层的不同目标,而标签则是这些不同的输入值,企业试图用大数据分析得到这些输入值的合理范围,以得到期望结果,于是就出现了如图4所示的模型。

图4:基于商业价值的用户画像标签设计
图4:基于商业价值的用户画像标签设计

标签类型根据打标签的方式又分为3种,分别是统计类标签、规则类标签和机器学习算法类标签。

例如小张在社交APP资料显示男性,和网友见面时对自己的描述是“浓眉大眼脸型方正,穿着很有设计感的裙子”;小张在结账时使用刷脸支付,没有获得当天的女性九折优惠。因此,如何判断小张的性别?

① 统计标签

小张在社交APP填写的为男性,所以我们认为他是男性,这类基于确切资料确定的标签,叫做统计标签;对于用户而言,其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据中统计得出。而该类标签构成了用户画像的基础。

② 规则标签

小张穿的是一件很有设计感的裙子,按照人们的惯性思维,张三为女性。这个判断是基于人们设定的规则,只要有人穿裙子就是女性,这类标签叫做规则标签,即基于用户行为确定的规则。在实际开发画像的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结构、分布、特征更为熟悉,因此归类标签的规则由运营人员和数据人员共同协商确定。根据不同标签所获取用户数据的准确性,标签的规则会不定时进行调整。

③ 机器学习算法标签

摄像头结合基于多种特征的算法对小张是女性的概率进行判断,由于小张长相很阳刚,算法判定其为男性,因此,小张刷脸支付没有获得活动女性优惠。该类标签通过机器学习挖掘产生,用于对用户的某些属性或某些行为进行预测判断。

对于目标人群有明确的行为数据,企业会根据用户偏好标签收集数据;但如果目标人群的行为数据较少,比如新用户和沉默用户,一般从他们所处的生命周期标签出发,去极化促进转化和召回的策略。


数据来源


数据获取途径

用户画像是一个复杂的过程,包括数据采集、数据处理、数据分类及数据存储等,如图5所示,展示了用户画像的具体架构,我们将对其最底层的用户数据采集途径进行详细分析。

图5:用户画像数据仓库架构
图5:用户画像数据仓库架构

从图5中可以看到,用户画像底层数据的主要获取途径包括两大部分:内部系统数据及外部数据,而内部系统数据又包括业务数据、日志数据和埋点数据。

(1)内部数据

① 业务数据

包括用户信息表、商品订单表、商品评论表、搜索日志表、用户收藏表、购物车信息表。

用户信息表包括了用户编码、用户姓名、用户状态(未注册、已注册、已注销)、邮箱编码、用户生日、性别(自然性别、购物性别)、电话号码、是否有图像、创建时间、注册日期、归属省、归属市、详细地址等等;

商品订单表包括订单来源标识(App, Web,H5,其他等)、用户编码、用户姓名、订单号、商品编码、商品名称、订单生成时间、订单日期、订单备注、订单状态(待支付、已完成、已取消、已退款、支付失败等)、订单状态时间、订单金额、付款账户、付款方式等等;

商品评论表存放用户对商品的评论信息,主要字段包括用户id、用户姓名、评论内容、评论图片、评论状态(待审核、已审核、已屏蔽)、订单id、创建时间、创建日期、评论用户IP、更新时间等;

用户收藏表记录用户在平台上收藏商品的数据,字段主要包括用户id、收藏日期、收藏时间、商品id、商品名称、收藏状态(收藏、取消收藏)、修改日期、修改时间等。

购物车信息表记录用户将商品加入购物车的数据,主要字段包括:用户id,商品id,商品名称、商品数量、创建日期、创建时间、图书状态、修改日期、修改时间等。

② 日志数据

访问日志表存放用户访问App的相关信息及用户定位数据的服务(LBS),通过在客户端埋点,从日志数据中解析出来。主要字段包括设备登录名、用户id、设备id、访问时间、上报时间(终端记录用户点击按钮时间)、用户所在省份、用户所在城市、上一个页面url、当前页面url、操作系统、登录日期、经度、纬度等。

搜索日志表存放用户在APP端搜索相关的日志数据,主要字段包括设备登录名、用户id、设备id、搜索id、搜索日期、搜索时间、用户搜索的关键词、标签内容、每个访问的随机数等。

③ 埋点数据

埋点日志表是存放用户访问App或网页,用鼠标或触屏点击页面时留下的打点记录。通过客户端做埋点,做用户页面统计及统计操作行为监控,主要字段同日志数据。

埋点是企业为了尽可能完整的收集可以体现用户使用场景和真实需求的行为数据,也是围绕着图1中的四要素,但数据框架通常是4W(who\when\where\what)+1H(how),分别对应着四要素中的人物(who)、时间(time)、地点(where)、事件(what + how)。

  • who

用来分析谁完成了这个行为,使用唯一的用户ID将行为与用户关联起来。常用的数据包括用户id、手机号、身份证、设备或应用识别码。

  • where

定位用户在什么地方完成该行为,常用的数据包括IP(web、手机)、GPS(手机)、自主填写位置(大众点评、饿了吗、美团外卖等)。

  • when

定位用户什么时间完成该行为,常用数据是时间戳和当地时间。

  • what

定位用户当前行为,为了能够更精细化管理,记录的信息越来越详细,具体指标包括内部系统数据中的业务数据,通过埋点的方式来获取。

  • how

获取用户发生发生行为时周边环境、手段、设备等,尽可能在数字世界里还原用户所处环境,常用数据包括操作系统、设备版本、设备型号、网络环境(WIFI、5G)、设备版本(用户使用设备的版本号)、浏览器、上级页面等。

当用户产生某个行为,触发埋点后,将4W+1H相关数据传输到后台进行分析,以每天、每小时或者一定数据限值的固定方式上报。有些企业只会收集与自身业务有关的用户画像标签数据,而大多企业会过度收集信息,即大量与自身业务无关数据。例如用户在图片管理软件上传了一张图片,软件会收集到设备信息、用户信息,图片如果是自拍,用户画像的具体外貌也将被绑定,而照片中建筑、门牌号、店铺名都有可能暴露用户的身份和位置,这些信息均有助于企业了解用户的财务状况、生活习惯等等信息。

(2)外部数据

外部数据包括多项数据,主要用于弥补内部用户标签不足或数据量不足问题,通过结合外部数据获取一个更加全面的用户画像。主要外部渠道包括:互联网公开数据、付费数据(数据提供商)、网络采集数据、通过人脉获取数据、百度指数和站长工具等检测数据。下面介绍几个主要渠道:

① 互联网公开数据

公开数据主要是围绕全球、国家、地方及企业宏观层面的统计数据,不会对用户画像有直接作用,但能够提供参考。例如,中国国家统计局(http://data.stats.gov.cn/index.htm),包括了我国经济民生等多个方面的数据;CEIC(www.ceicdata.com/zh-hans),拥有超过128个国家的经济数据,能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售、以及国际利率等深度数据;还有包括Wind、搜数网、中国统计信息网、亚马逊公开数据集、figshare、github等等。

② 付费数据

  • 大数据交易中心

2015年各地开始兴建大数据交易中心,截至2019年底,已有30家大型数据交易所(中心),我国大数据的交易模式可大致划分为四种,政府牵头或背书的交易所(中心)、行业机构为主的行业数据交易模式、大型互联网公司及IT厂商主导的数据交易平台、垂直数据服务商主导的市场化数据交易模式。

  • 企业间数据共享

类似信贷企业很难通过自有数据完成用户画像,通常会与行业合作伙伴共享数据。

  • 其他

网络攻击者通过各种漏洞,布点SDK,获取所需数据,并在地下交易市场进行出售,形成了包括黑客、多级料商(数据中间商)、买家一条完整的黑色产业链,通常分为四级:第一级是黑客或公司内部员工盗取用户个人数据;第二级盗取的用户信息售卖至料商;第三级是料商不断发展代理商,将数据进行倒卖;第四级是信息使用者,获取数据后,进行用户画像补充、电话营销或实施电信诈骗。如某料商在向记者采访时表示:“个人普通信息比如电话、微信、QQ号等,平均拿货成本每条信息0.4元,单条销售价格0.7-0.8元,每个月流水达到40-50万元,金融、教育、医美等行业都做,市场需求量很大。”

数据采集技术

互联网时代,为了追踪、分析与说服消费者,广告商已经开发了很多便捷与成熟的营销跟踪技术,在线广告营销伴随着每一个上网浏览网页的用户。广告行业借助不同的技术,如Cookies、Flash cookies、Beacons、浏览器指纹,对用户行为进行追踪。

① Cookies

Cookies是网站服务器在用户的内容或硬盘中保存的用来记录用户浏览的网页地址、网页停留时间、网页上键入的用户名、密码、用户浏览习惯等方面的小型浏览文件。它并非由本机生成,通常在用户浏览网页时,从所浏览的网站发送过来,用来检测用户在做什么的小型数据包;它不仅可以对用户行为进行追踪,还可以为用户推荐曾经访问的网址,省去用户重新输入网址的麻烦,用户不必重新输入用户名和密码,就能实现登录。此项技术引发的最大问题是在用户完全不知情的背景下,对用户行为进行跟踪、记录,这往往会引发第三方(如行为广告商)的接入。广告商在采集到Cookies数据后,会有针对性地通过行为营销的方式向用户投放其可能感兴趣的广告。目前主要的应对方法是使用浏览器的无痕模式,或定期对浏览器Cookies清理,减少数据泄露。

② Flash cookies

随着技术的发展,开发人员发现了更好的方法——Flash cookies。传统Http下的cookies不稳定,用户可能会随着清除掉浏览器中的Http Cookies,或者在浏览器选项中,手动将它设置为禁用模式而避免数据被采集。Flash cookies则可以对用户删除的Http cookies进行重写,获得重生,这样原来保存的数据在删除后又重新呈现在分析者面前。而传统禁用或清除浏览器中Cookie的方法,无法抗衡网站对用户网上浏览历史的重写、跟踪和记录。

③ Web Beacons

网络信标(Web Beacons),又称网页臭虫(Web bug),是可以暗藏在任何网页元素或邮件内的1像素大小的透明GIF或PNG图片,常用来收集目标电脑用户的上网习惯等数据,并将这些数据写入Cookies。不同于Cookies可以被浏览器用户接受或禁用,Web Beacons只以图形交换格式(GIF)或其他文件对象的形式出现,只能通过检测功能发现,最初的涉及有积极意义,如跟踪侵犯版权的网站。

信标API(Beacon API)则是Web Beacons的升级版本,它不需要使用不可见图像或类似手段就可以达到相同目的,旨在方便Web开发人员能在用户离开页面时将信息(如分析或系统诊断数据)发回Web服务器。使用Web信标API能够不干扰或影响网站导航来完成此种追踪,并且对最终用户不可见。这项技术在2014年后相继引入Mozilla Firefox和Google Chrome网页浏览器,但2021年谷歌又宣布为保护用户隐私,已经放弃使用追踪个人网站浏览记录。

④ 浏览器指纹

不同用户的浏览器都有自己的特征,网站可以检测用户的浏览器版本、操作系统类型、安装的浏览器插件、屏幕分辨率、所在时区、下载的字体及其他信息,这种通过浏览器对网站可见的配置和设置信息来追踪Web浏览器的方法,称为“浏览器指纹”,它如同人手上的指纹一样,具有个体辨识度。如果要避免指纹追踪,用户需要禁用网站的JavaScript与Adobe’s Flash技术。即使电脑高手,面对指纹跟踪技术,也很难保护自己的隐私。最初浏览器指纹是状态化的,需要用户登录账户才能得到有效信息;升级后的浏览器指纹通过不断增加浏览器的特征值从而让用户更有区分度;到现在已经基于人的行为、习惯为用户建立特征值甚至模型,在不同设备上,没有使用用户登录的情况下,仅通过浏览网页的习惯等就可以锁定到具体的用户身份,这项技术正在研究中。目前来看指纹跟踪很难被阻挡,只要用户使用浏览器上网,用户的网上行踪就如同公开状态一般。

⑤ SDK

在检测网站或软件上用户行为时,通常在网站或软件上增加一些代码,当用户触发相应的行为,进行数据上报,也就是代码埋点。这样的代码,在网站上称为检测代码,在app上成为SDK(Software Development Kit)。市场上目前有一些相关工具,如GrowingIO、GA、神策等。


用户画像数据问题及分析


从营销学角度来看,用户画像技术帮助市场供方精准定位客户,同时为客户提供个性化服务,有效提升了市场交易效率。虽然用户画像技术有其社会价值,但在前面两大部分,我们对用户画像的标签框架、设计与应用、标签数据来源及数据采集的相关技术进行的详细梳理,发现企业在用户画像过程中存在较多数据安全问题,包括数据交易渠道合规性问题、非法数据采集技术、过度收集用户数据、用户个人数据隐私缺乏保障机制等。

外部数据获取渠道合规性问题

正常情况下,用户提供个人数据和平台提供个性化服务形成了一个商业闭环。但从前面分析中,为了用户画像,企业自有数据无法满足标签数据量需求,企业通常需要从外部获取一些数据。在数据交易中,滋生出一些自发组织的灰色市场,如图6所示,平台或其代理将用户个人数据明码标价的形式销售给第三方机构,出现了以用户、平台或其代理和第三方机构为代表的商业闭环,第三方机构通过对用户信息的分析,提供一些“个性化服务”给用户,而这些频繁的个性化服务广告对用户生活带来一定的影响。由于数据缺乏管理,部分数据会流入到一些非法组织手中,向用户进行虚假产品营销及诈骗。

图6:企业数据交易闭环图
图6:企业数据交易闭环图

目前,市场上合规的数据交易渠道较少,2015年各地兴建大数据交易中心,旨在促进数据合法交易及流通,服务市场经济。但近几年数据表明并未达到市场预期,且与初期设想有较大差距,主要问题在于数据确权、数据定价、数据交易等数据要素市场化、流通机制设计等方面存在很多空白,容易触及法律红线。根据《网络安全法》第四十二条规定:“网络运营者不得泄露、篡改、毁损其收集的个人信息,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。”而我们从前面分析内容可以发现,用户画像的前提是要识别个人身份,否则无法从技术上实现对个人的用户画像。除了《网络安全法》中提及要实现个人数据的匿名化,在数据交易和共享环节还需要获取用户授权同意,这将极大增加了企业数据合规成本。

因此,促进外部数据获取渠道合规性需要解决以下问题:

  • 个人数据匿名化(非去标识化),实现关联要素“人物”的切断。
  • 在个人信息匿名化的情况下,完成用户画像(可用不可见);例如使用联邦学习、多方安全计算、差分隐私等方法。
  • 清晰的数据确权方案;
  • 企业低成本数据使用授权方法;
  • 建立健全的数据定价和利益分配机制。

防止非法数据采集方式以及数据过度采集

早期用户数据分析是围绕业务数据,即通过过往的消费记录形成客户的消费画像。业务数据基本能够分析出客户对于品牌、颜色、款式的喜好以及价格承受能力等,但这些数据不足以进一步挖掘客户的消费潜力。平台侧通常需要更多的行为数据,抓住客户具有时效性的冲动需求,为此平台方通过我们前面提到的Cookie、Flash Cookies、Beacons、浏览器指纹、SDK等技术,在客户不知不觉中,收集行为数据并分析数据,用于用户画像及精准营销。行为数据的收集如图7所示:

图7:应用提供商数据获取方式
图7:应用提供商数据获取方式

在注册环节,应用提供商获取用户的基础数据,再通过设备唯一的IMEI(国际移动设备标识码)授权(局域网是通过Mac Address来确认设备地址),可实现用户与基础数据的绑定,即帮助应用提供商来判断发生的数据具体来自哪个用户。之后通过获取更多权限,例如摄像头、照片、通讯录、定位、应用列表等等功能,读取用户的实时行为数据,而这些行为数据被应用提供商采集,进行词云分析,分析用户的性格、爱好、各种生活喜好等,对用户进行画像。随着数据的积累,在数字世界形成了一个与物理世界相映射的数字人物。这个数字人物的控制,在将来有一天通过仿真技术,数据持有人能够做到对数字人物的下一步行为的预测,同步引导物理世界的用户完成他们想要的目的,这将对所有用户是危险的一件事情。

近年来,一些手机终端公司陆续提供了一项设备数据保护的新技术——OAID(匿名设备标识符),使用虚拟的ID身份替代设备原有的IMEI成为设备识别标识。OAID通过提供随机匿名身份,用于各种应用的设备绑定,让设备能够正常运行且让应用提供商无法识别具体的用户身份。但这种模式下,仍然有以下问题:

① 未从根本解决数据安全问题

OAID虽然有效解决用户数据无授权采集问题,即让应用提供商无法通过真实终端设备识别码映射到具体的用户行为,但该方法无法彻底解决数据安全问题,因为应用提供商依然可以通过应用注册账户留下的个人信息识别具体的用户。关于注册信息安全问题,目前的解决方法较为复杂,通常使用虚拟手机号或临时邮箱注册账户,并需要做到频繁注册新账户来迷惑应用提供商。

② 无法避免终端提供商收集数据

OAID虚拟身份来自中心化机构,虽然通过该方法避免应用提供商使用各种技术收集终端数据,但终端提供商能够通过OAID映射到IMEI,控制权相当于从应用提供商转交到终端设备提供商手里,仍然有数据泄露风险。

关于数据过度采集问题,用户普遍表现出排斥的态度,终端服务商也通过OAID等技术防止各种应用对用户信息采集。但随着互联网技术的进一步发展,我们将迎来一个与物理世界相映射的数字世界,无法避免更多数据会从物理世界映射到数字世界。既然大势所趋,我们需要做的不是防止数据被采集,而应该将更多注意力放在如何保护采集到的数据安全,即用户的每条数据被采集,只能用于同一场景下服务于本人,也就是图5中形成平台与用户的闭环,避免数据流向第三方机构、非法组织等。

用户个人隐私保护

用户画像虽然提升了交易效率以及降低了供应成本,但用户的隐私同时也被其他机构或组织掌握,存在多种泄露风险,包括:第一、企业通过第三方出售用户数据;第二、企业员工盗取数据,并通过非法途径售卖;第三、网络攻击者通过技术漏洞或盗取企业员工身份获取系统中的用户数据。目前各公司主要从道德层面承诺对数据的保护,但一位知名公众人曾在公开场合表示:中国人愿意牺牲隐私,换取便利。而央视对此的评论是:人们最害怕的不是他说了错话,而是科技巨头对用户核心利益的熟视无睹,成为一种脱口而出的真心话。

在数字化时代,数据就是原油,它不仅能推动经济发展,还是实现信息技术突破的重要燃料,如果一味强调保护数据,肯定会逐渐丧失已逐渐渗透进我们每个人生活、每个角落的便利和无限商机,不能因为要倒掉洗澡水,就把孩子也泼出去。隐私保护和经济发展并不是二元对立,目前的解决方案包括区块链技术、数据匿名化处理、差分隐私、多方安全计算、矩阵变换等数据脱敏技术,都能做到用户数据隐私,但这些技术的建设不仅需要平台端买单,还会影响到平台的现有核心利益,因此当前市场对该类技术推行非常缓慢。这一局面逐渐出现转机,比如近期滴滴打车、运满满等互联网平台因为数据采集不合规问题被叫停的事件,对市场起到了很好的警示作用。