你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

苹果用机器学习和差分隐私大规模分析用户数据,并保证不会泄露信息

发布时间:2024-08-28

浏览次数:0

来源:Apple

编译:Bing

了解人们如何使用他们的设备通常有助于改善用户体验,但获取提供对用户行为洞察的数据(例如他们在键盘上输入的内容以及他们访问的网站)可能会侵犯他们的隐私。

近期,苹果开发了一种利用本地差分隐私(local)的系统架构,并结合现有的隐私保护最佳实践,实现规模化学习(at scale)。研究人员设计了一种高效可扩展的本地差分隐私算法,并经过严谨的分析确定了应用程序、隐私、服务器算力、设备带宽​​四个因素的重要性应该如何分配。平衡这些因素将有助于成功部署本地差分隐私。这种部署将覆盖数亿用户,比如在后台跟踪最受欢迎的表情符号、最常用的健康数据类型和媒体播放偏好等。在后台回复“dp”即可查看论文完整版。

只能用上行文的文种_sketch只能在mac上用吗_只能用上秘密武器了

项目简介

深入了解用户的整体行为对于改善用户体验至关重要,但所需的数据敏感且私密,公司必须对其保密。此外,使用这些数据部署学习系统还必须考虑资源开销、计算成本和通信成本。在本文中,作者概述了一种将差异隐私与现有的隐私保护方法相结合的系统架构,然后从用户群体中学习。

差分隐私是经过严格数学证明的目前最强的隐私保护方法之一,其原理是用精心调整的噪声覆盖用户的数据,当许多人提交数据时sketch只能在mac上用吗,加入的噪声达到平衡并产生有意义的信息。

在差分隐私框架中,有两种设置:中央()和本地(local)。在这个系统中,苹果并不像集中式差分隐私那样在服务器上收集原始数据,而是采用更可靠的本地差分隐私。本地差分隐私在数据发送前会对其进行随机化处理,因此服务器无法看到或接收原始数据。

该系统非常透明,用户可以自愿选择是否加入。如果用户不同意报告使用信息,他们的私人数据将不会被记录或传输。通过本地化差异隐私,用户的设备按照时间级别进行加密。此外,系统还限制上传的隐私事件数量。信息每天只向服务器传输一次,并且在没有用户ID的加密通道上进行。用户信息最终会到达一个访问权限受限的服务器,那里没有IP标识符,也没有与其他记录关联的信息。因此,我们无法区分一个表情符号和另一个网页记录是否来自同一个用户,这意味着这些信息是完全保密的。这些记录被处理并添加到统计数据中,然后由苹果内部相关团队进行分析。

与此同时,苹果研究人员正在估算各种记录的频率,例如表情符号和网络域名。他们有两个想法:从所有类别的所有已知记录中生成直方图,或者创建一个显示数据集中最常见记录的图表。

系统架构

系统架构由设备端与服务器端的数据组成,在设备上,原始数据在加密阶段被单独处理,限制访问服务器在处理后将数据进一步划分为数据访问与数据聚合阶段,下面将详细介绍每个阶段。

只能用上行文的文种_只能用上秘密武器了_sketch只能在mac上用吗

信息加密()

用户可以在 macOS 或 iOS 的“系统偏好设置”中选择是否同意分享个人记录用于分析。对于不愿意加入的用户,系统不会开启该服务。而对于愿意使用该功能的用户,苹果针对每个用户行为设置了隐私参数ϵ。

苹果还对每天传输的记录数量设置了限制。隐私参数ϵ的选择基于每条记录的底层数据集的隐私特性。这些值与其他研究差分隐私的项目提出的参数一致。此外,由于哈希碰撞,以下算法为用户提供了进一步的拒绝条件。除了上述方法外,苹果还删除用户ID和IP地址以进一步增强隐私。服务器上生成的用户ID和IP地址是分开的,因此多条记录之间没有关联。

每当用户使用设备时,数据都会立即使用具有特殊参数ϵ的本地差异隐私进行加密,并使用数据保护(数据)暂时存储在设备上,而不是立即传输到服务器。

系统会根据设备随机抽取不同的隐私记录,经过一定延迟后发送至服务器,这些记录不包含设备ID,也不包含行为发生的时间,设备与服务器之间的通信采用TLS加密。

sketch只能在mac上用吗_只能用上行文的文种_只能用上秘密武器了

加密过程

在 iOS 中,你可以通过打开 设置 > 隐私 > 分析 > 分析数据 来查看差异隐私的条目。在 macOS 中,这些记录在 关于本设备的 系统报告中可见。下图是算法对最流行表情符号的使用记录示例。记录中涉及的算法和参数将在下文体现。

加密记录示例报告

数据访问和聚合

在数据接入之前,加密记录会去除IP地址,数据库会将所有用户数据汇总并批量处理,去除记录发生时间等元数据,并根据记录进行分类,数据库还会对每条用户行为记录进行随机排序,然后将结果输入到下一阶段。

聚合器从数据库收到记录后,会根据算法为每条使用记录生成个性化直方图。在计算统计数据时,无需合并多条记录的数据。在这些直方图中,只统计高于指定阈值 T 的域名。

算法

下面我们将介绍三种局部化差分隐私算法。

1. 计数平均值(CMS)

CMS(Count Mean)算法在保留局部差分隐私的前提下,聚合设备提交的记录,输出领域类别记录数量的直方图。该过程分为客户端处理和服务端聚合两个阶段。

例如,假设用户访问该网站。客户端算法从一组哈希函数(hash){h1,h2,h3,...,hk}中随机选择一个,假设选择h2,然后使用它对上述网站域名进行大小为m的编码,即h2()=31。编码写成大小为m的one-hot向量,其中第31位设置为1。为了确保差分隐私,one-hot向量的每一位都以概率独立编码

Flip,其中ϵ是隐私参数,形成私有化向量。该向量与所选的哈希函数一起发送到服务器。

服务器端算法将加密向量聚合起来形成一个矩阵M,该矩阵有k行m列,每行代表一个哈希函数,每列代表从客户端传输来的向量的大小。

当记录到达服务器时,算法将加密向量添加到第 j 行的向量中,其中 j 是设备采样的哈希函数的指数。然后适当调整 m 的值,以便每行对每个类别都有无差别的频率计数。

为了计算频率,该算法读取每 j 行的 M[j,hj()],然后对这些结果取平均值。原始论文中给出了这个过程的详细分析。

2. 计数均值(HCMS)

在完整论文中,作者讨论了如何通过增加设备带宽来让 CMS 中的计算更加准确。然而,这会增加用户的传输成本。苹果希望在降低传输成本的同时,将对准确度的影响降到最低,于是就有了 Count Mean 算法(HCMS),其优点是设备可以在准确度损失最小的情况下进行传输。

我们还是用上面的例子,和CMS类似,客户端也是从一组哈希函数{h1,h2,h3,…,hk}中随机选择一个,假设抽到h3,那么就有h3()=42。代码中写成一个one-hot向量v=(0,0,…,0,1,0,…,0,0),其中第42位设置为1。由于我们只想传输一位信息,一个简单的方法是从向量中采样,发送一个随机坐标。然而,这可能会导致错误或结果直方图发生变化。为了减少错误,研究人员对v进行了变换,即v'=Hv=(+1,-1,…,+1)。同样,为了保证隐私,向量中的每一位都表示为

下图显示了这个过程。

sketch只能在mac上用吗_只能用上行文的文种_只能用上秘密武器了

Count Mean 中的客户端算法

同样,服务器端的算法与CMS的算法大致相同。

Count Mean 中的服务器端算法

3.(SFP)

上述两种算法都假设存在一组已知的域名,服务器可以根据该域名枚举样本以确定相应的计数。

但在某些情况下,一些领域过于庞大,受限于计算能力无法全部枚举,例如研究人员在研究常用词时,即使限制为 10 个区分大小写的英文单词,服务器也必须执行至少 5210 个循环。

因此,苹果开发了一种名为(SFP)的算法,并将其用于发现新词的任务中。由于流行字符串的子字符串也经常使用,因此研究人员利用了这一点,并使用客户端 CMS 算法对输入的单词进行加密。

结果

通过这三种新颖的算法sketch只能在mac上用吗,苹果在提升用户体验方面取得了很大进步。以下是三个典型案例:

发现流行的表情符号

表情符号是聊天中必不可少的元素,苹果想知道用户最常用的表情符号有哪些,以及它们在不同地区的相对分布情况,所以他们在键盘语言环境中部署了该算法,CMS 中的参数设置为:m=1024,k=65536,ϵ=4,本地表情符号库包含 2600 个表情符号。

数据显示,表情符号的使用情况会因键盘设置的不同而有所差异,下图是英文和法文的表情符号使用情况,苹果可以根据这个结果对表情符号快捷输入进行本地化调整。

只能用上秘密武器了_只能用上行文的文种_sketch只能在mac上用吗

英语和法语键盘在使用表情符号方面的差异

查找占用大量内存的网站

有些网站确实非常耗资源,苹果希望找到这些网站来优化用户体验。他们针对两类网站:浏览时占用大量内存的网站和占用大量 CPU 并拖慢浏览器速度的网站。在 iOS11 和 manOS High 中,可以通过差分隐私自动检测和报告这些域名。

研究人员通过算法发现,最常见的、消耗大量资源的网站是视频网站、购物网站和新闻网站。

扩大你的词汇量

为了优化“自动更正”功能,苹果会不断搜索词汇表中没有的单词,这就是上面提到的SFP算法的用武之地。

该算法不仅可以在英语环境中使用,还可以在法语和西班牙语环境中使用。以英语为例。算法学习到的新词可以分为以下几类:

苹果利用这些数据不断更新其在线词典并改善键盘体验。

他们还发现,现在很多人打字时会省略结尾的“e”或“w”,比如lov(爱)、th(这个)或kno(知道)。所以如果用户不小心选到了第一个预测的单词,也就是你到目前为止输入的所有字符,系统会自动在单词后面添加一个空格,而不是自动用你想要输入的单词替换它。这个功能就是局部差分隐私算法带来的。

结论

本文介绍了苹果为在保护用户隐私的同时提升用户体验而推出的全新学习系统架构,涵盖了各个使用层面的本地化差分隐私算法,并提出了三种独特的算法——CMS、HCMS和SFP。这些工具可以帮助企业看到人们在不同语言环境下使用表情符号的差异,并搜索出当下最流行的词汇,从而帮助企业提升软件体验。

研究人员希望该项目能够弥合隐私理论与实践之间的差距,并相信这项工作将在进一步增强用户隐私保护的同时继续推进大规模学习问题的研究。

如有侵权请联系删除!

13262879759

微信二维码