个人数据分类的比较研究(上)】描述了美国人较为经常使用的PII、欧盟GDPR对个人信息的定义、国家标准《个人信息安全规范》对个人信息的界定。在下篇中,还想和大家聊聊两种分类。

美国教授提出的PII 2.0

知名美国学者Paul Schwartz和Daniel Solove曾撰写过两篇文章,分别是The PII Problem: Privacy and a New Concept of Personally Identifiable Information 和 Reconciling Personal Information in the European Union and the United States。总的来说,两位学者的观点是:

  1. In the US, the law provides multiple definitions of PII, most focusing on whether the information pertains to an identified person. 美国的法律中,PII主要是与已识别的个人相关联的信息。换句话说就是国家标准《个人信息安全规范》中讲的路径二:“关联,即从个人到信息,如已知特定自然人,则由该特定自然人在其活动中产生的信息(如个人位置信息、个人通话记录、个人浏览记录等)即为个人信息。”

  2. In contrast, in the EU, there is a single definition of personal data to encompass all information identifiable to a person.  Even if the data alone cannot be linked to a specific individual, if it is reasonably possible to use the data in combination with other information to identify a person, then the data is PII. 但在欧洲,个人信息的定义是指即包含了识别路径,也包括了关联路径。其实,美国自己的标准SP800-122也是包含了上述两个路径。

两位学者进而提出PII 2.0。这个PII 2.0 简单来说就是:

  1. Under PII 2.0, data about identified individuals should be given the most protection. 关联路径下的个人信息需要最高等级的保护。

  2. Identifiable data still deserves protection too, but that protection differs from identified data in that only some of the Fair Information Practice Principles (FIPPs) should apply. 识别路径下的个人信息需要保护,但是保护级别不用像关联路径下的那么强。

为什么做出这个区分,最重要的理由是:PII 2.0 enhances the protection of privacy.  It creates an incentive for companies to keep information in the least identifiable form. If we abandon PII, or treat identified and identifiable information as equivalents, companies will be less willing to expend resources to keep or transfer data in the most de-identifiable state practicable. 简单来说就是,这样的区分给公司一个激励:当数据处理活动不需要识别到具体个人时,那就在处理活动中不要识别出具体个人。如此一来,因数据处理活动对个人合法权益造成危害的风险就降低了。其实这是个典型的风险管理的思路。通过法律上对不同识别度的个人数据进行区别对待,鼓励数据控制者采取低风险的处理方式。

GDPR对个人数据分类的再解析

两位美国教授提出的分类,在很多人看来,其实根本就是与GDPR不符。毕竟GDPR对个人数据的定义中,没有对“可识别”和“已识别”做出区分。但真的如此吗?

首先,个人数据的定义已经在上篇给出了。

其次,匿名化数据:The principles of data protection should therefore not apply to anonymous information, namely information which does not relate to an identified or identifiable natural person or to personal data rendered anonymous in such a manner that the data subject is not or no longer identifiable. This Regulation does not therefore concern the processing of such anonymous information, including for statistical or research purposes. 

其次,假名化数据:‘pseudonymisation’ means the processing of personal data in such a manner that the personal data can no longer be attributed to a specific data subject without the use of additional information, provided that such additional information is kept separately and is subject to technical and organisational measures to ensure that the personal data are not attributed to an identified or identifiable natural person.

以上三类大家比较了解。但实际上,仔细读GDPR文本,特别是第11、12条,还存在一类特殊的个人数据。

Article 11 Processing which does not require identification

1. If the purposes for which a controller processes personal data do not or do no longer require the identification of a data subject by the controller, the controller shall not be obliged to maintain, acquire or process additional information in order to identify the data subject for the sole purpose of complying with this Regulation.

2. Where, in cases referred to in paragraph 1 of this Article, the controller is able to demonstrate that it is not in a position to identify the data subject, the controller shall inform the data subject accordingly, if possible. In such cases, Articles 15 to 20 shall not apply except where the data subject, for the purpose of exercising his or her rights under those articles, provides additional information enabling his or her identification.

这个11条读起来是不是和两位美国教授谈到的PII 2.0中“识别路径下的个人信息”(identifiable data)有点相像?特别有意思的是,第11条没有用“假名化”这样的字眼。

所以总结起来,实际上GDPR包含了四个类型的个人数据:已识别个人的数据、可被识别个人的数据(包括假名化数据)、第11条这个类型的数据、匿名化数据。这四个类型的数据的识别程度依次下降。

简单的总结

本系列上、下两篇对个人数据分类的研究,主要聚焦在识别度上,并非涉及个人数据的敏感度。

对已识别个人的数据来看,还可做如下分类:

有一类个人数据,其用途在数据控制者看来,是在于建立于特定主体之间互动的渠道。例如电话号码、电子邮箱、地址、IMEI号等。

有一类个人数据,其用途是建立对特定个人电子身份的认证。例如用户名密码、指纹、虹膜、Face ID等。一旦用于认证个人电子身份的个人数据被泄露、滥用、误用,则与电子身份紧密相连的各种权益都处于巨大的风险之中,如银行资金被盗用、社保记录被篡改用于骗取社保资金、医疗记录被篡改导致被列入重点监控人群等等。

有一类个人数据,描述了特定个人的某些方面的特征或情况。例如浏览记录、婚史、行踪轨迹、教育经历、疾病史、宗教信仰、血型、基因信息等等。这些个人数据一旦遭泄露,或者被滥用、误用,个人可能遭受不必要的社会压力进而封闭自己,他人可能会利用这些信息勒索特定个人或迫使其违背意愿行事等等。

在已识别个人数据下,还存在可被识别个人的数据(包括假名化数据)、GDPR第11条这个类型的数据、匿名化数据。

在我个人看来,将来我国的立法能否提出个人数据不同识别度的分类,以及对不同识别度的数据如何进行区别对待,是立法成败的关键之一。

声明:本文来自网安寻路人,版权归作者所有。文章内容仅代表作者独立观点,不代表士冗科技立场,转载目的在于传递更多信息。如有侵权,请联系 service@expshell.com。