必威亚洲官方登录

【必威亚洲官方登录】图像来源:盗版图像(公众号: ) AlibabaCloud (阿里巴巴云):本文来自数派科学技术的创始人宋一民(Ethan ),数派科学技术来自数据科学与工程、密码学(多方安全性计算,差分隐私etc.) Ethan在正式设立数派遣技术之前就任Facebook Ads,作为tech lead从零到一主导Facebook Ads和多个五百强公司基于隐私维护的数据合作项目,然后Ethan指出,数据隐私的维护超越了数据流通过程,是动态的数据安全。 数据的隐私维护与价值挖掘并不矛盾。 持续地看到数据隐私维护的落地,不为了范式的转移而展开新的数据。

规范数据在使数据流通更顺利、收集更多数据的基础上进入价值挖掘的下一个激烈点,但隐私计算行业现在还处于初期阶段,Ethan在这里分享他对数据的思考,平衡隐私的维持和价值以下是共享内容的详细庐山会议:数据流合理性与必然性流链中数据分类数据隐私与价值挖掘的平衡:如何表现赋予数据享受者控制力的数据拥有者的控制力? 数据控制力管理技术实践中的数据流动性一个数据有可能从分解开始的整个生命周期开始在多个机构和节点之间度过时间,节点之间度过时间的过程是数据构成一个网络,许多企业内部不存在数据流客观现实中,数据流不存在其合理性和必然性。 另一方面,对于任何个体,他的数据都是在不同的场景中生成的,不会被收集。

例如,微信聊天软件不生成方位移动的信息。 寄宿酒店不生成住宿信息。

很难想象淘宝卖物中没有生成购物信息等管理与这个个体相关的所有数据的实体。 另一方面,在挖掘数据的过程中也没有专业性的问题,市场需求因场景而异,可能很难在几乎相同的实体中挖掘。 因此,在很多情况下,为了充分挖掘数据价值,必须经由多个节点汇集尽可能多的数据的发生源,加工处理和使用。

从产业的角度来看,互联网和AI的关系经常被说是“连接数据,数据产生智能”。 其次,智能决策的过程只是数据流聚集、价值挖掘的过程。 更丰富的数据维和更好的数据复盖面积对模型的质量也很重要。

数据作为AI的原料,其流动性也是使AI更好地发挥价值的基础。 流中数据的流动性需要合理性和必要性,流中数据在实践中是如何分类和定位的? 数据在通过不同节点的过程中,不会在不同的上下文环境中被提及:例如,数据的收集、存储、使用和对应的上述不道德的转让。 主要收集对应原始数据的收集和构成结构化数据的进程,例如,将用户操作者App的动作构成日志发送到服务器侧,或汇总用户发生的注释。

存储和使用通常在字面意思上展开并保存或处理数据。 为了展开数据的单体或利用外来力量展开数据,可能涉及将这些数据的保存或使用权转让给另一方的过程。 另外,考虑到这些与个人数据相关上下文不同,一般用户在投寄数据时,对某个App本身、什么样的数据不太长地蓄积,另外,将其蓄积权转让给除了某个App本身以外的其他实体等
通常,收集或收集数据的一方被称为第三方数据,第三方数据为了更好地利用数据服务利用者,经常在许可中不拒绝更好的权限。 例如,数据使用权可能拒绝通过数据向个人用户展开信息流。

这可能包括优化原始数据的部署,例如用户对哪个帖子展开了点礼拜,或者将一个用户的信息用作另一个用户。 如上所述,几乎一个实体从头到尾都可以在闭环中完成,因此将用户的信息(可能是完整的信息,可能是单体或一般化的信息)转让给其他实体完成从这些第一方数据中减去数据的实体称为第二方数据。 由于被限制在数据本身的商业价值、适当的法律和PR风险上,在该数据转移的过程中,第一人希望尽量抑制数据本身的泄露。 通常,通过协议的角度可能是规定数据使用的类别、规定数据可以存储的时间等。

从技术角度来看,可能会去除个人识别标志,进行一般化(将等效方位从某个明确方位转换到某个圆的范围内)等预处理,但对这些方法不太简单。 除了第二数据以外,不存在根据某个特定目的展开大量原始数据的实体,例如,展开某个统计分析的研究(例如,所有人的存款比率,例如,所有人的年龄生育等),或者某个特定的研究(例如,某种药的安全性除了这三者的数据以外,不存在公开发表数据的范畴。 虽然很难明确公开发表数据的定义,但有人指出有必要通过爬虫类从网上取得(没有得到数据所有者的必要许可)。 但是在现实中,判别公开发表数据的流通是否有风险也往往与提供公开发表数据的一方如何看待这种提供的不道德问题有关。

请注意,这里的公开发布数据不一定是数据的所有者。 因此,它不经常出现在发布上,这是除了收集、存储和使用数据以外的上下文。 即,第一第二或第三实体判断是否得到公开发表该数据的许可。

价值挖掘V.S .隐私维护-数据所有者在控制力数据权利流中的价值挖掘可以使AI发挥更好的价值,但同时不需要在数据流过程中抚摸,也不存在数据隐私侵害的风险。 最近,许多金融大型数据公司接受了立项调查,从数据源的角度来看,允许保存这样的公司爬虫类接触到的数据或远远超出誓约的适用范围是最重要的原因之一。

例如,如果一个App声称用户支持多个金融账户的部署管理,综合出示个人现金流量等信息,App为了出示这些信息,用户必须取得这些金融账户的采访权限。 但是,在这个过程中,App可以捕获和保存个人银行账户内的所有信息,把从这些信息中提取的标签卖给第三者,或者利用标签积极开展新的业务。

这些过程未经用户许可,因此是对数据使用权的欺诈。 从现在的工程实践来看,为了解决问题挖掘和隐私的困境,现在最糟糕的解决问题方法是赋予数据享受者控制力,可能还包括数据收集的许可和收集后的保留和使用的控制。

国际上广泛开展的实践中或规范(例如GDPR )偏向于对个人享受的数据及其数据的各种上下文环境展开正确的许可。
例如,在GDPR中,可以在不拒绝第一方数据的情况下具体地“自己收集了哪些数据”。

用户有了这个明确的目的后,应该有权自由选择“保留什么样的删除”。 在此基础上,例如不拒绝数据处理方法的具体面谈和许可,“根据收集到的用户称赞的投稿内容和类型自学用户的兴趣”。 这些兴趣作为标签,虽然不是原始数据,但依然需要用户逐个展开具体的许可证。

如果我们通过赋予数据享受者控制力来平衡数据价值的挖掘和隐私维护,在实践中就不会经常出现新的挑战。 在不侵犯隐私的情况下如何获得个人许可。

例如,在取得兴趣标签的许可证时,用户预先就几乎无限的兴趣展开一个许可证的可能性很低,一般的过程也首先取得数据挖掘侧的标签,对该标签进行面谈。 我们在过去的工作实践中看到的最糟糕的处理方法是首先对最多3~600万人的常用兴趣制作科学知识图,整理这些兴趣的包含关系或关联性。 之后,关于各种各样的爱好,从寻找包含现在的爱好在内的一般爱好的关系的爱好进行面谈这一点出发,用至今为止的方式完成了。

尽管如此,尽管消耗了巨大的资源,具有很高的阈值,但由于极其困难,很多企业在处理与GDPR和法规遵从性相关的问题方面面临巨大挑战,这一事实并不容易理解。 数据所有者的控制力是如何表现的? 数据所有者控制力的中心意义是让每个所有者自由选择挖掘和维护之间的平衡. 为了赋予所有者控制力,首先讨论的是谁是数据所有者的问题。 一般来说,在个人数据中,即使是个人的身份识别信息和生物统计资料信息那样记述在个人中的数据,也是用户的不道德信息(采访哪个app,在app中做了什么)和从这些不道德信息中得到的新标签那样的用户分解数据特别是,关于生成的标签数据,由于标签是例如数据收集者展开自学而制作的,所以有时也被指出所有者是收集者的想法也不应该被普遍尊重。

如果围绕享受者是生成数据的个体这一线来考虑的话,在整个数据生命周期链中,第一者的数据控制、第二者的控制等没有不同的问题。 对第一侧来说,因为是数据的收集者,所以相关的方面也最少。

Facebook在2018年的F8上发布了Clear History,这是一种赋予用户控制力的功能。 这个设想基本上被解释为允许用户在收集、保存和三个方面施加控制力。

首先,用户看不到Facebook从哪个合作伙伴渠道取得了用户的什么样的数据(收集可视),然后要求用户是否能展开到广告发布(为了控制),立即删除这些数据再次允许此功能听起来非常简单,但对实际运行的组织来说,它涉及识别所有数据源、用简单的数据流识别各种数据和管理某个数据的所有存储方面的能力对小机构来说资源和投入产出比的认识太多,对大机构来说内部数据流太简单了,所以为了构建它,很多时候必须进行系统整体的新设计和构建,成本也是不言而喻的。 例如,为了构建Clear History,首先为了在数万PB的数据仓库和更大的冷存储器中找到应该管理的数据,需要进行数据集整体的意思识别(因为表单的模式没有统一,所以用元数据将数据类型
为了能够复盖面积更好的存储点,不需要根据已经取得的数据标签进行从数据流的展开终端到终端的识别。 识别完所有存储点后,必须定义新的数据结构,然后支持低吞吐量的中心管理系统,以构建从功能中动态删除。

这个过程协商了很多内部部门,消耗了大量的资源,花了一年多的时间。 可见企业间的数据流通也不存在挑战之类的潜在东西。

在允许除第一数据之外的第二数据的过程中,第一许可的目的可能是帮助数据挖掘,第二许可的目的可能是帮助数据请求。 在第一种情况下,通常不允许使用,不允许再次转让,对存储进行严格的管理(在必要的存储范围内管理)。 例如,对消费行为建模的第二数据不存在过去两周和过去两个月这两个时间点,最多两个月的消费行为的一般价值也很小。

在允许存储时,通常不能将版本的存储时间限制为最多两个月(例如,添加24小时的灰色周期)。 在数据利用许可中,一般来说,如果对数据挖掘的目标和场景展开严格的限定版,则既可以维持许可契约者在竞争法水平上的权益,又可以间接地维持数据享受者的隐私。 从维持隐私的观点出发,假设许可证的目的是计算部分用户的偿还风险,支持许可证契约者出租的场景,如果限定版挖掘的目的不限定于该合作者之间的联报目的,则在与其他合作者的营销场景中是个别的对于第二个(数据需求),没有不同的类型,例如在特定场景、产品展开中需求或在销售标签展开中需求。 这里不展开求各种数据的方式,特别想强调的是,在求的过程中必须关注的是,原始数据在第二方和其他地方溶解。

因为一般来说,许可方通过允许原始数据的转让来维持隐私,但不允许加工数据的流通或实现某一场景下的协议目标。 无论如何,输入的结果几乎不能防止数据的信息溶解,大量的溶解不会间接转让原始数据。

推荐数据一般化中溶解结果的极端例子。 假设允许输入某人罕见的活动区域中的小半径圆范围,那么如果创建多个这样的半径圆,就可以逐步增大对该人活动区域的判断。 公开发表数据与上述不同的是,由于已经公开发表,如果得到数据所有者对公开发表的许可,则之后仅次于对公开发表数据的收集者展开1个许可。 收集者提供公开发表数据的途径也是爬行类的自主收集形式,具有一定的收集和清扫/整理成本。

其中有意思的是,有不是严格意义上公开的数据的数据,或者只希望在某个特定范围内公开的数据。 例如,社区运营者可能只希望社区的用户分解内容(UGC )在社区内展开公开发表,不希望在互联网上分发。 典型的这种意志解释形式类似于Robots exclusion standard,主要用于向爬虫类声明网站的哪些内容无法加载。

除此之外,公开发表数据也可能意味着不能像社交网站的朋友表那样被载入和保存。 朋友列表被保存,比较后会得到“哪个朋友停止了对我的关注”的信息,但这里面也没有侵犯别人隐私的问题。
一般来说,为了防止这种越境不道德,公司有自己的有目的的组织反睡眠系统,可能在协议范围之外确保数据的控制力。

由以上可知,表现数据的控制力长期以来面临着很多课题。 另外,除了第一方的数据,沿着数据链向上返回的挑战逐渐减少。 这种现象是数据作为抽象化而不存在的,可以复制得与普通的不同,但复制的数据的控制力是新定义的,不表必威亚洲官方登录现出来的。 因此,在数据流通过程中将数据的各种属性分为管理和许可,尽可能减少数据复制的频繁出现,从而大大减少了在整个链中管理控制力的成本。

不是要如何切割数据链,而是要研究在链的各个阶段如何更好地进行数据控制力的精细化管理。 新的产业机会:在数据流通链中控制力管理的技术实践中,如上所述,解决问题数据流通链中的数据控制力问题的主要方式往往对不同种类的数据采用不同的方式,在宏观上追加数据进行复制那么,在明确的实践中,个人数据的隐私维护有什么样的宏观分类要素和技术手段呢? 从宏观上看,数据可以分为个人识别信息(PII )和用户特征值两种。

PII是指在公开发布环境下可以高精度定位人的数据,如美国SSN、国内身份证号码、电子邮件地址和电话号码。 用户特征量基本上可以解释为围绕PII以外的个人行为特征和个人特性(生物统计学数据、人口统计学数据等)的数据。 用户特征量大多是数据挖掘。相对于挖掘创造价值的对象,PII起到了将多个特征值合并在一起的作用,由PII构成的图是在数据链上的公司之间展开数据融合的桥梁。

您会发现,PII的控制是数据链中构成控制的关键,很难综合使用没有PII的两个数据集。 对PII的控制一般被称为De-identification,现在主要有脱敏(Data Masking )、电子邮件(Anonymization )、k-电子邮件(k-anonymization )等。 脱敏基本上省略了身份证的一部分,通过尽可能维持数据的隐私,与一般数据处理中的一般化技术相似。

充满著脱敏过程中的信息丢失似乎被忽视,缺乏足够的安全性。 如果保存和溶解这样的masked data,最后可以反向发售原始数据的内容,因此脱敏的方法已经在隐私拒绝低的环境中使用。

电子邮件是更改或删除个人身份信息,隐藏数据和个人之间的对应关系。 一般的数据源不会自己分解管理这样的对应关系,几乎隐藏了个人身份信息,所以安全性远远高于需要对完全的PII进行脱敏。 另外,关于将数据集与PII关联的属性,通过变更内部的对应关系,电子邮件数据也可以用于在外部展开数据集关联的操作员。

k-电子邮件基于电子邮件,明确提出个人识别不仅仅是PII,任何数据构成的子集在某种程度上都可以被人识别。 k在这里,使用这个数据集展开识别时,可以将识别的人增加到几k的子集。

k-e邮件是目前标准化标准中的高等级,其中k的值越高,隐私维护的效果越好,Google和Facebook的内部数据管理有很多用途。 用户特征值数据主要反映在价值挖掘上,使用方法从宏观上可以分为原始数据用和统计数据用两种。 例如,如果有一次在某个地方买东西的人可以指出是原始数据的话,有人可以指出过去一天买东西三次的人是统计数据。

大多数情况下,防止原始数据所需要的不仅是影响价值的挖掘,而且是为了更好地维持原始数据。 类似地,在链中传输用户特征数据时的控制方法也很多,偶尔通用(例如,不是明确的数值而是等效的范围)、统计资料(前述)、加密(例如同一状态加密)、差分隐私(例如,等效的数值基于完全的数值, 关于多数据的安全计算环境的方式可以从各个角度进行区别。 例如,没有GC和OT等可靠的第三者(或者对该第三者的可靠成本有多大),可以构筑几乎不可靠的第三者的环境,但一部分准同型加密设计和基于可靠硬件的环境一般是第三除了上述两种(MPC和可靠的硬件)以外,差分隐私(精密的自由选择在原始数据上降低噪声,在维持原始数据灵敏度方面过剩的介入运算本身)等,通过牵引运算来维持原始数据的方法不多。 也有以往的一般化(例如,将原始数据切换到模型)。

在实际应用中,不考虑数据泄露危害的程度(例如,PII数据的泄露不导致连锁的数据泄露反应),在数据容易溶解(例如,低时效性的数据不那么容易溶解)等超过安全水平的基础上,可以实现信息的完整性。 在说明工程实践中的技术类型的同时,我们期待着应对实践中遇到的两个比较罕见的理解误区。其次,对于数据隐私没有受到关注的MPC (多安全计算),近年来MPC是数学数据的流动性具有必然性和合理性,也是AI在产业中更好地发挥智能的基础,但数据价值的挖掘是方便的,同时也面临着侵犯隐私的风险。

从现在的实践来看,这是通过赋予数据享受者控制力,使数据价值挖掘和隐私维持均衡的最有效的方式。 另一方面,流动的数据链很简单,一般来说,在数据流通过程中必须允许数据的各种属性进行分离管理,尽量减少数据复制的频繁出现,降低在整个链中管理控制力的成本。

数据流中的隐私维护是动态的、过程中的数据安全和隐私,在相应的技术实践中也提供了新的产业和创造性机会。 对于这个新产业,初期我们自由选择的方案也要根据市场阶段展开渐进的发展。

例如,在数派技术的解决方案中设计数据流控制,数据享受者可以单向或双向控制数据流,在现实环境中灵活地应用。 数据隐私规范和价值的挖掘是从双向开始,螺旋下降的过程,只有规范数据才能在收集更多数据的基础上进入价值挖掘的下一步。 我们期待着在今后的10年里,在隐私规范的展开下为范式转变构筑新的数据,展开AI的数据基础设施革命,在其中贡献一点自己的力量。

特约稿件,发出许可禁令刊登。 以下,听取刊登的心得。【必威亚洲官方登录】。

本文来源:必威官网手机版-www.guemarket.com

admin

相关文章