吴昊东 彭俊
摘要:个人推论数据因不具有可识别性,处于我国数据保护法律的盲区。大数据技术的发展使个人推论数据被广泛用于算法推荐服务中,其在创造数据红利的同时也对个人信息安全造成了威胁。构建个人推论数据的保护规范需明晰其法律性质和权利内容,平衡数据处理者和个人用户之间的利益关系。我国现有法律规范为鼓励数据流通,没有对个人信息处理环节作过多规制。因此较为合理的保护路径是赋予弱势的个人用户以对抗算法的权利,以此来回应新时代个人对推论数据受到法律保护的合理期待。
关键词:推论数据;
数据保护;
算法歧视;
个人信息保护法
中图分类号:D922.16 文献标识码:A 文章编号:1672-4437(2024)02-0087-05
一、个人推论数据被忽视的风险
个人推论数据是用户标签的法律本质,用户标签是个人推论数据的表现形式[1]。数据增量呈几何倍速增长的当今社会,通过分析用户标签来实现个性化推荐是互联网平台的常用手段,在实现精准营销的同时也节省了用户筛选目标信息的时间成本。个人推论数据在创造数据红利之余,因其匿名性的特征,导致其被置于个人信息保护的视域之外,由此引发个人信息安全的一系列风险[2]。
(一)标签设置影响个人用户权益
《个人信息保护法》明确法律所保护的对象是具有可识别性特征的个人信息,个人推论数据经过匿名化处理后不在调整范围之内。如此,个人推论数据被弃置在法外空间,不仅数据处理者可以任意支配、利用,数据主体也不会觉得自己权益受到侵犯。事实是,对个人推论数据的不当利用会减损用户的权益。例如,某健身爱好者因控糖需要经常网购无糖食品,该行为产生的浏览记录、点击查看记录、交易记录等信息经后台数据处理后被提取出“无糖饮食”的偏好特征,购物平台依此来实现个性化推荐服务。但若该推论数据被共享或销售至人身保险公司,在保险公司的算法分组下,“无糖饮食”极可能与“糖尿病患者”相关联,进而将他标注为高风险群体,提升其保费。
(二)标签化易引发群体歧视现象
标签化不仅是识别个体的方式,更是群组分类的依据。互联网个性化服务的算法逻辑即是基于不同的用户分组进行自动化决策,通过作用于群体的方式来影响个人。个人的存在便消弭于对群体的评价之中,只剩下组别的概念。而所属群体的差异性是产生歧视和偏见的重要原因,倘若求职软件的算法设计者对某群体带有偏见,则算法结果一定不公平。如果认为招聘“适婚适孕”的女员工会增加企业的用人成本,那么符合该类特征的女性在求职软件上收到的岗位推荐相比一般人会更少。此外,即使算法本身中立,也可能导致结果歧视。假如样本数据中,仅有25%的女性有高薪工作,算法便会因此得出女性不渴望高薪工作的结论,这显然是因为样本不全而导致的歧视。理论上,只有样本数据的种类和规模达到一定数量,所得结果才具有统计学意义。但现实中,并非每个互联网公司都能够建立相当规模的数据库。
(三)技术发展使匿名化处理无效
单个的用户标签仅仅只是描述个人的某方面特征,当然不属于个人信息的范畴。但是,随着标签的增多,识别对象的范围会变得越来越窄。只要标签类型和数量足够丰富,通过分析用户画像识别出特定自然人便存在可能。大数据技术日益发展并取得不断突破的当下,个人信息保护和数据安全面临前所未有的挑战。对个人推论数据进行反向识别后,可以溯源到具体个人,使得个人信息的匿名化处理无效[3]。
二、保护个人推论数据的法理证成
法律在个人推论数据保护上的缺位,导致个人信息安全出现风险。为保障互联网经济健康和网络用户权益,给予个人推论数据以法律上的保护实有必要。但有两个问题亟待解决:第一,必须明确个人推论数据的法律性质,厘清其和个人信息的关系;
第二,需要分析个人推论数据权益的内容,构建起相应的保护规范。
(一)个人推论数据的法律性质
传统法律语境下将个人推论数据置于个人信息和非个人信息的二元框架中讨论,只能得出非此即彼的答案。而根据学者保罗·施瓦茨与丹尼尔·索洛夫所提出的概念,可将个人信息再分为两类:识别其用户的信息和可能追溯到其用户的信息。不同的类别将决定信息获得不同级别的隐私保护。可追溯信息的概念为个人信息与非个人信息的相互转化提供了一个过渡的中间地带。个人推论数据符合可追溯信息的特征,且有法律保护的必要,应为其制定一些独立的保护规范。
(二)个人推论数据承载的权益
为个人推论数据制定保护规范的前提是,需弄清楚其权益内容有哪些。《互联网信息服务算法推荐管理规定》第10条明确了算法推荐服务提供者的用户标签管理责任,禁止在用户标签中出现违法及不良信息关键词。由此条分析,个人推论数据至少承载着三方面的权益:一是在个体性权益上,用户标签的内容会对个人权益造成一定影响,个人应有权阻止自己的推论数据被不当使用;
二是在群体性权益上,带有歧视、偏见的用户标签有违公序良俗,侵害社会公共利益,受歧视的群体可对这种标签化行为提出纠正意见;
三是在公司数据权益上,用户标签的形成有赖于企业持有的一整套算法技术和信息资源,包含了公司的劳动成果,公司可对其主张经济利益[4]。显然,个人推论数据承载着多元法益,当信息处理者滥用标签技术给个人用户或群体造成损害时,同一数据承载的法益便产生了冲突。互联网企业作为个人推论数据的控制者,对其享有权利自不待言,需要讨论的是,其他主体对个人推论数据主张权利的法理依据是什么。
(三)用户享有数据权益的法理依据
1.个人信息“可识别”标准之争议
前文已提过,个人信息的范围其实是随时代发展而不断变化的。因此,有学者认为对“识别”的既有解释路径只关注到了个人信息文本上的实质化含义,而忽视了识别对象的不同会使“可识别标准”发生动态变化。应当拓宽对“识别”的解释,以使法律规范能够契合时代发展的需要[5]。还有学者认为,可将“识别”的内涵扩充为“识别+关联”,即使是不具备识别性的个人数据信息,由于对其利用产生的影响仍能及于数据主体,故而也属于个人信息的范畴[6]。笔者认为,对“可识别性”的标准尚不能解读为“关联性”。从《个人信息保护法》的规范意旨出发,将个人信息的保护范围限于“可识别”的标准确有必要,因为数据流通是实现数据社会化利用和实现数据资源价值的必然路径。以“关联性”替代“可识别性”,将会导致个人信息保护的范围异常宽泛且没有边界,不仅妨碍数据的正常使用和流通,也会使得本应用于保护个人信息的资源被浪费。
2.个人推论数据受保护的合理期待
传统隐私观念中,法律保护旨在令个人的私密空间、活动、信息不受他人的非法侵扰。而在网络空间,大量数据隐私的利用是必要且主动的,这决定了数据隐私的主要特征为匿名化和加密性,去可识别化后,大量数据隐私置于公共平台,除非遭受技术上的解密,否则不会有泄露的风险。可是,大数据技术的运用绕过了识别个人这一环节,数据隐私在具体的应用场景中被收集和分析,风险也由此诞生。因此,用户标签背后的数据主体对所涉推论数据理应抱有一种合理期待,即不会因为标签的暴露而使自己逐渐“显名”,进而遭受损害。当损害发生时,用户便可以此主张行使救济的权利。
三、现有规定在推论数据保护上的不足
我国《个人信息保护法》主要规范数据处理中的收集和最终决策环节,而较少关注数据的处理过程,这种立法模式基本兼顾了数据保护和流通的需要。但随着标签化行为的广泛滥用,对数据处理有限的规制手段便显得捉襟见肘[7]。
(一)管理责任和告知义务未尽完善
1.管理责任不具体
《互联网信息服务算法推荐管理规定》第10条规定了算法推荐服务者的用户标签管理责任,但除了强调不得将违法或不良信息关键词作为用户标签外,并没有提出其他的具体要求。用户标签的管理仍需依靠数据处理公司的技术方案在具体业务层面予以控制,规定仅仅只是在禁止标签内容不合法上发挥了作用。实际上,真正导致歧视性决策的因素是标签内容不合理、设置不透明、使用不合规。在算法推荐服务的应用场景中,不法标签的使用不一定能给服务商带来经济利益,其更多考虑的是挖掘用户的消费偏好等,以用于精准营销。标签化过程中对客户特征非中立性的描述是令其遭受不公平待遇的主要原因,由于标签不透明化,数据处理者可以将已形成的标签用于其他场景,一旦标签被跨场景使用,则引发歧视的风险极速增大。此外,现有规定也未能注意到,单个的标签内容设置实际上不会对用户权利造成重大影响,是多个标签的组合利用使用户信息的假名化趋于无效。
2.告知内容待补足
《互联网信息服务算法推荐管理规定》第16条规定,算法推荐服务者应向用户公示算法推荐服务的基本原理、目的意图和主要运行机制,并告知其提供的算法推荐服务情况、不针对个人特征的选项及用户关闭算法推荐服务的权利等。该条款是针对算法推荐服务者的义务性规范,同样也可视为关于用户算法解释请求权的表达。要求服务商对算法进行解释的目的在于使数据处理过程透明化,纠正自动化决策过程中的信息不平衡,以避免可能造成的算法歧视,但这一权利在实现的过程中却遭遇重重障碍。算法解释标准的模糊性使服务商在对算法披露的程度上有很大的操作空间,由于算法技术和商业秘密相关,服务商一般不会愿意对外公示自己的技术细节,而且向用户解释纯粹的技术知识并不会对数据保护产生积极作用。
(二)自动化决策反对权处于虚置状态
《互联网信息服务算法推荐管理规定》17条第一款构建了主动性的数据隐私保护模式,在规范层面上确立了用户的自动化决策反对权。但由于欠缺完善的用户标签管理和告知制度,使得自动化决策反对权也不能完满的行使。实践中,商家以自动化决策向个人进行信息推送,即使其公示了算法的基本运行机制,具体的决策过程仍不为用户所知,决策所依据的“用户画像”仅存在于算法的后台,这导致用户缺乏判断商业推送或营销构成歧视的基本资料。即使自动化决策对个人权益造成重大影响,用户也可能并不知情,自动化决策反对权便处于虚置状态。另外,商业推送或营销显著影响到个人权益的情况下,利用自动化决策反对权也仅是对歧视性算法的事后规制。此时若用户的权益已处于受损状态,那么行使自动化决策反对权也无法起到权利救济的作用,用户真正需要的可能是自动化决策的透明度和个人推论数据的获得权。
四、个人推论数据的保护路径
无论是用户标签的设置还是利用,都只是实现个性化推荐的一种技术方案,技术本身的不成熟需要时间来不断进行优化和发展,法律并不能作为技术的标准,为其预设一个应然的轨道,只能在技术发展的过程中调整其影响的权利义务关系,保障利益分配公平。因此,数据保护规范应当在鼓励、支持自动化决策算法技术的基础上,赋予弱势的个人用户以对抗算法的权利,使算法技术免于沦为恶意使用的工具。
(一)完善用户标签的告知义务
标签化行为本身具有泄露隐私、涉嫌歧视的风险,因此在数据处理者为用户设置标签时,即使是出于优化服务的目的,也应当履行标签化的告知义务,但无需得到用户的同意。这是因为用户事前对个人信息的使用同意理应包含对数据处理的默许,而数据处理的结果,即形成的标签是否合理需要告知用户,以防止出现对用户的不实评价。数据处理者或许有这样的担心,要求履行标签化告知义务将会使得每一次推荐服务都变得异常繁琐,用户和服务商都疲于审阅此类的信息。但告知义务并非只能以通知的形式呈现,也没必要在每次推荐或决策中都履行告知程序。像“神策数据”等移动应用程序能够通过可视化界面交互方式展现用户群体及个体画像,服务商只需为用户提供查询本人画像的渠道,便能使用户清楚地了解到个人信息被利用的情况。出现标签不符时,用户可以选择删除或提供新的信息以修改,且服务商也不必向用户公开算法处理的具体过程,避免商业秘密因公开算法机制而泄露。
(二)增加个人用户的限制处理权
基于数据处理者标签化告知义务的履行,当用户感知标签出现错误或隐私可能泄露,继续由服务商使用数据将对自己造成不利影响时,用户应当拥有请求数据处理者中止或停止利用数据的权利[8]。从我国的数据保护立法来看,数据限制处理权一直没有被当作独立权利来对待,甚至有学者认为该权利的内容完全能够被数据删除权所涵盖[9]。诚然,数据限制处理权在功能上确实和删除、更正请求权等有相似之处,但不可等同视之。限制处理权旨在及时排除数据处理者对用户个人信息的控制,以阻止针对个人的算法继续运行,从而避免自身权益受损。这种权利的实现过程具有简便性、即时性,结果具有可恢复性,如同强制措施一样,是为防止损失发生或进一步扩大所采取的暂时性控制措施。无论是删除权抑或更正请求权,其权利的实现都意味着数据被改变或擦除,而实际操作中,用户可能只是想限制处理那些敏感性的信息,而不想对其进行修改。在虚拟的网络空间里,有必要赋予用户以数据限制处理权,配合标签告知义务,预防因信息技术快速发展而随之发生的不可预见的危险。具体而言,当数据主体收到不利标签的通知时,无需举证该标签对自己造成重大影响,即可限制数据处理者的自动化分析和决策行为,使数据主体能够更加积极地应对算法歧视、隐私泄露等风险。
(三)建立全面的算法影响评估制度
随着大数据技术的发展,个人数据即使不涉及敏感信息,数据挖掘过程中对数据对象的分类、集群化和关联依然可能导致用户被归入负面评价的群组,这显然会对用户的权益造成不利影响[10]。因此不仅需要在事前进行数据保护影响评估,在事中也应关注数据处理中的风险,及时排除算法自动化处理给个人带来的妨害[11]。
1.注意数据处理中敏感性标签的设置
敏感性标签包括性别、民族、宗教信仰、党派等能够识别出个人归属团体或组织的信息。为用户设置针对其个人特征的敏感性标签本身不会侵犯其个人权益,且对敏感信息的正常使用会促进算法结果的公平,区别对待并不代表歧视,例如,求职软件可以为残疾人提供更多适宜的岗位信息。这就要求数据处理者在评估敏感信息的使用目的时,审核底层算法的运行逻辑,必要时介入人工审查,保证决策结果公正[12]。此外,监管机构在对算法推荐服务企业进行合规审计时,也需要注意数据处理过程中涉及的敏感性参数,只有行业自治和政府监管相结合,才能防止算法有意或无意的偏见。
2.注意标签数量和复杂程度的设置
造成歧视性结果的另一种可能情况是对评价对象的片面审视,用以运算的用户标签数量越少,所得出的结果越不准确。用户标签实际已被纳入社会信用体系,在金融保险等领域成为评估个人信用或资产的重要参数,如支付宝的芝麻信用和微信的支付分,在小额贷款、动产租借等场景下,直接决定着自动化决策的结果。而在申请大额信用贷款时,金融机构总是尽可能多地收集并核实客户的资产及信用记录,其原因就在于,重要决策所参考的信息数量和类型必须足够丰富且真实,否则信息的不实和缺失将会导致决策失误。因此,数据处理者一方面要确定收集目标信息的合理范围,提高数据样本完备性;
另一方面还要优化算法,尽可能多的为用户标签的生成设置多个原始数据分析对象,并对标签的复杂程度予以提升,这样可以避免单向思维造成的刻板印象。
3.审核标签设置的方法
算法歧视是算法内部演算和数据分析所导致的对特定群体或个人的不公正对待[13]。造成这种不合理区别对待的原因有两种:一种是基于生活经验的标签设置,如女性对美妆产品的需求量比男生更大;
另一种是基于数据模型的标签设置,如肥胖人群更易患上糖尿病。前种标签设置方法带有数据处理者的先验预设,当其预设与事实之间存有偏差时,其标签设置自然具有歧视性。对此种设置方法必须苛以严格的报备义务,数据处理者需对标签设置所需数据范围、逻辑预设、使用目的、必要性等向监管机构作出详细说明。后一种标签设置方法更具合理性,数学运算的偏差可以通过技术调整来解决,但是如果用以运算的数据本身出错,则结果一定不会准确。故使用此种标签设置方法的数据处理者需保证分析对象的客观真实以及全面性,在数据开始处理前就进行算法影响评估。
五、结语
个人推论数据权作为一种新兴权利,已经受到国家立法的关注,2022年实施的《互联网信息服务算法推荐管理规定》为用户数据权益保护提供了具体可操作的法律规范。但由于在理论上尚没有搭建起完整的推论数据权利框架,也未在数据权谱系中融入推论数据的内容,因此法律规范无法顾及到推论数据权益保护的各个方面。尽管如此,立法上的动向也表明了国家保护个人推论数据权益的态度,出台更为细致的推论数据保护法规,将是实现数据治理的重要一环。
参考文献:
[1]刘海鸥,李凯,何旭涛,等.面向信息茧房的用户画像多样化标签推荐[J].图书馆,2022(03):83-89.
[2]徐文.个人推论数据是如何被藏匿的?[J].社会科学,2020(10):107-118.
[3]金泓序,何畏.大数据时代个人信息保护的挑战与对策研究[J].情报科学,2022,40(06):132-140.
[4]赵精武.用户标签的法律性质与治理逻辑[J].现代法学,2022,44(06):102-115.
[5]曹博.个人信息可识别性解释路径的反思与重构[J].行政法学研究,2022(04):133-144.
[6]丁晓东.用户画像、个性化推荐与个人信息保护[J].环球法律评论,2019,41(05):82-96.
[7]牛彬彬.个人数据权效力体系研究[J].江西财经大学学报,2020(05):134-147.
[8]崔聪聪.论我国数据限制处理权的创设及其制度设计[J].南京社会科学,2019(09):91-96.
[9]余筱兰.民法典编纂视角下信息删除权建构[J].政治与法律,2018(04):26-37.
[10]崔淑洁,张弘.数据挖掘对个人信息的侵害与保护路径[J].西安交通大学学报(社会科学版),2020,40(06):
137-144.
[11]张恩典.反算法歧视:理论反思与制度建构[J].华中科技大学学报(社会科学版),2020,34(05):60-71.
[12]唐林垚.人工智能时代的算法规制:责任分层与义务合规[J].现代法学,2020,42(01):194-209.
[13]石颖.算法歧视的发生逻辑与法律规制[J].理论探索,2022(03):122-128.
Research on the Protection Path of Personal Inferential Data in
the Era of Big Data
WU Haodong, PENG Jun
(Law School, Guilin University of Electronic Science and Technology, Guilin Guangxi, 541004, China)
Abstract:
Personal inferential data is in the blind spot of China"s data protection laws because it is not identifiable. The development of big data technology has led to the widespread use of personal inference data in algorithmic recommendation services. While creating a data dividend, it also poses a threat to personal information security. To build the protection norms of personal inference data, it is necessary to clarify its legal nature and right content, and balance the interests between data processors and individual users. China"s existing legal norms to encourage the flow of data, did not do too much regulation in the personal information processing link. Emphasis on personal inference data protection should not be choked, otherwise it will limit the development of technology. Therefore a more reasonable path of protection is to give vulnerable individual users the right to fight against the algorithm. In this way, it responds to the reasonable expectation of individuals to have their inferential data legally protected in the new era.
Key words:
inferential data; data protection; algorithm discrimination; Personal Information Protection Law