声音如何泄露你的隐私？美国学者谈智能语音的风险

锌媒体报道 2023-12-08 10:54

图罗曾经写过一个故事：一位父亲在家里收到百货公司邮寄的母婴用品广告后，才得知他尚未成年的女儿已经怀孕。商场怎么会比女孩的家人更早知道她怀孕呢？

美国学者、宾夕法尼亚大学教授约瑟夫·图罗追踪了这一过程：在线零售商可通过自家网站追踪消费者的购物进度，还可追踪顾客跳转到其他网站的情况；实体商店可以利用的法宝则是智能手机应用、无线网络、摄像头和定位系统。它们希望收集很多信息：比如一个顾客是否怀孕或者剃须膏快要用完，以便在合适时机推送广告。

图罗将这些写入《监控无处不在：零售商如何追踪消费、侵犯隐私、评估客户》一书，2017年本书出版后，他又用时三年追踪起新的领域——正在崛起的智能语音产业。《声音捕手：获取人们感受、隐私和金钱的智能语音营销》中的案例包括苹果、亚马逊、谷歌、三星等涉及开发语音识别相关技术的科技巨头，他从专利文件、新闻稿、公司网站等多个来源，以及对首席执行官、项目经理、研究人员和专利律师等产业主要参与者的个人采访中提取信息，分析产业的主要参与者如何构思和应用基于语音技术的产品。复旦大学管理学院副教授褚荣伟认为该书最显著的优点之一“或许就是与业内人士的直接对话”。

“你的声音是独一无二的，它只属于你自己。因此，你的声音不但对你来说异常珍贵，而且对社会中一个旨在利用声音的新领域——智能语音产业来说特别有商业价值。”图罗提醒公众，围绕智能语音技术迅速发展可能涉及的伦理红线和隐私滥用问题。

智能语音产业对我们来说并不陌生。它涉及很多载体或工具，比如智能音箱、车载信息系统、客户服务电话及温控器、警报器等“家居互联”设备。

在美国和欧盟地区，最有名的智能语音助手是亚马逊公司的Alexa、谷歌公司的谷歌智能助手（Google Assistant）和苹果公司的Siri。在中国，我们熟知的是百度公司的小度助手和阿里巴巴的天猫精灵等。它们已经得到广泛应用：亚马逊公司声称，搭载其智能语音助手的设备多达数亿个；而通过智能手机和智能音箱Google Home与用户互动的谷歌智能助手则在超过10亿个设备上被用户使用。

图罗的研究专长于市场营销、新媒体与隐私。2005年《纽约时报》的一篇文章中称他“可能是媒体碎片化领域的权威学术专家”。他对美国公众有关营销、新媒体和社会问题的持续调查受到大众媒体和学术界的广泛关注，获颁美国国家传播学会杰出学者奖。2012 年，因图罗在营销和数字隐私方面的研究和写作，美国第三方隐私安全认证机制TRUSTe任命他为“隐私先锋”。

在《声音捕手》中，图罗试图警示的是一种商业生态系统目标的转变——营销者能利用你身体发出的信号赚钱。我们对人脸、指纹涉及的隐私安全已有一些讨论，但同为生物识别信息，语音能够泄露的隐私恐怕还未被公众所广泛知晓。

业内人士普遍认为，通过分析声音和说话方式等，能获取关于人的情绪、情感和人格特征等方面的信息，甚至识别体重、身高、年龄和种族等。约瑟夫·图罗担忧的后果是，营销者通过这些信息给作为顾客和潜在顾客的你打分，然后根据分值或分数等级的不同，向你展示不同的产品，给予更高或更低的折扣，而当你需要帮助时，他们也会据此提供不同质量或等级的服务。

简而言之，营销者通过声音建模，对不同的人进行差异化营销。

同样的，声音也可能被政治和军事组织利用。你可能因为一张语音画像或一份语音分析报告，被商家、其他组织或个人识别、分类，甚至歧视。图罗指出，目前语音行业还处于尝试这些做法的早期阶段，各公司对快速推进生物特征画像仍持谨慎态度。“但是它们现在已经拥有了相关的技术和专利，一些公司也已经开始使用语音分析技术。”这意味着，我们至少要对声音（当然也包括其他生物识别信息）可被利用的价值保持一定的知情和警惕。

“又偷听我了”

和图罗的联系不算顺畅。《声音捕手》不算热门图书，2023年6月，南方周末记者偶然刷到了这本书的相关讯息。在社交网络上，近几年我们常常听到一类说法：“×××又偷听我了”。这指的是，我们经常发现在线下和别人讨论一些事情后，过一阵子，就会在某些App上刷到相关讯息。

公众通常不知道这一切是如何发生的，对于自己说的话被“偷听”存在担忧，不知道相关技术是否处于“黑箱”。《声音捕手》是一种前瞻性研究——它解释智能语音领域的发展情况，并说明需要阻止它在哪些方面的发展。

南方周末记者最初通过宾夕法尼亚大学网站的公开邮箱与约瑟夫·图罗教授联系，但约访信均石沉大海。直到三个多月后，一位版权代理终于转来他的回信。他严谨且有耐心地回答问题，并表示希望了解更多关于中国市场的信息，他相信《声音捕手》中提到的很多问题在中国同样适用。

图罗认为要探明各家公司如何以及多大程度上利用智能手机和智能音箱中的语音数据来赚钱十分困难，密密麻麻的隐私条款往往没有那么坦诚。但要弄明白它们的意图，一个可行的办法是查阅专利技术文件——为鼓励创新，美国宪法赋予了美国国会授予专利的权利，从中可管窥大型科技公司研发语音相关技术的战略方向。

在亚马逊公司的一项专利附图中，一个伴有咳嗽和鼻塞症状的女人对智能音箱Alexa说：“我饿了。”该设备在通过“处理语音数据，并对用户语音的音调、节奏、发声方式、颤动、和谐度加以分析”后，检测出说话人的语音异常，最终得出该用户感冒这一结论。基于这一结论，Alexa询问对方是否需要喝鸡汤，在对方拒绝后，它又提议购买一小时即可送达的止咳糖浆。图罗认为，这个场景温暖、贴心，但人工智能程序的真实目的很可能是通过用户需要喝鸡汤和同意购买止咳糖浆的频率，推断出她的短期或长期健康状况——这是具有市场价值的，亚马逊病房甚至可以相应地为用户提供治疗建议、订购并配送处方药。

谷歌公司的一份专利申请书写道，公司能够通过“音频的特征，如语音模式、音调等”，弄清楚房间里有谁，他们“在走动还是做其他事”，以及此时他们行动的声音有多大。谷歌公司在申请书中举了一个例子：父母即使远离孩子们，也能实时掌握他们的状态——在睡觉或在说悄悄话。如果是后者，则意味着孩子们“又在淘气”，智能语音系统将会通知父母或其他大人，这样他们就可以对孩子们“进行管教”。这项专利旨在以灯具、温控器和锁具等设备为媒介，响应用户通过声控和触控发出的指令，从而打造谷歌的“智能家居”业务。

你的声音透露你是谁

一个人的声音能揭示他的哪些信息？卡内基梅隆大学计算机科学教授丽塔·辛格探索了语音特征与身体其他部位之间的关系。比如，在通过声音判断一个人的性别时，从骨骼到细胞特征等各种因素是如何发挥作用的。声音与情绪的关系和神经相关，这是因为“支配喉部肌肉的神经与许多神经，尤其是迷走神经相联系”，“而迷走神经又会严重影响身体对情绪的反映”。

研究结果表明，人们说话时会不经意间提供关于自己的细节信息。图罗举了很多例子，比如，身体健康的人发出的元音明显更清楚，发出的声音传得更远，更少出现声音抖动。声音甚至可以透露出一个女性是否在几个月内服用过避孕药，因为该药物会抑制排卵改变激素水平，研究人员可以通过对声音“范围”和“质量”的定量检测出变化。渐冻症、帕金森和失智症患者有不同的声音缺陷，而抑郁症和精神分裂症都有特定的生物标志。

20世纪的研究人员试图挖掘声纹和人的某些身体特征之间的联系，但辛格认为困难之处在于考察进展缓慢的疾病和声音、情绪之间的微妙关系时，调查人员通常没有足够的时间去观察被研究对象。能够实现机器学习和深度神经网络的人工智能技术则可以帮助克服这一问题，让研究人员发现肉眼无法观察到的联系模式。

具体做法是，在控制年龄、体重及其他身体特征等变量的条件下，将声纹加载到计算机上，然后让计算机去分析特定声纹与研究人员感兴趣的身体特征——如疾病、咖啡因含量或与情绪相关的神经递质等之间是否存在某种持续的联系。如果经过分析后发现确有联系，计算机就能在每个人的声纹中检测出那些特定声纹。

麻省理工学院的一个项目仅根据一个人的一小段语音片段，就利用人工智能生成了此人面部的粗略数字画像。一篇关于这项成果的评论性文章指出，“值得庆幸的是，人工智能（目前）还不能仅凭声音就知道某个人确切的长相。神经网络能识别出语音中特定的标志性信息，如性别、年龄、种族及许多人共有的特征。”

图罗认为“目前”一词值得玩味，“这反映了研究人员对于这些通向我们身体和心灵的新门户的乐观态度，以及一点敬畏。”而利用人的语音判断其情绪和人格的做法已在呼叫中心行业中得到成规模的使用，2010年，《纽约时报》的两名科技记者写道：“现在，很多呼叫中心的惯常操作是通过识别特定的单词或短语，或者检测出对话中出现的其他特征，来判断来电者的某些情绪。”他们还透露，以色列的语音分析软件公司Voicesense开发了一种算法，它可以测量十几个指标，包括呼吸、说话节奏和语调等，当来电者“变得不高兴或不稳定”时，它会向客服代表和主管发出警报。

“当Echo和Google Home刚开始流行的时候，很多评论家就建议用户在讨论他们不想让语音助手知道的话题时，最好关闭智能音箱。然后，关闭了设备就无法享受它提供的自发服务——这正是语音助手的核心魅力，当开启设备时，语音助手会随时准备回答你的问题和执行你的命令。所以，人们还是会让这些设备处于开启状态，将自己暴露在语音监控环境之下。”图罗指出，目前大型科技公司对于语音识别技术的利用仍持审慎态度，一大核心逻辑在于——他们担心美国民众对于智能音箱在全社会渗透的反感，毕竟，和人脸、指纹识别相比，这些设备更能够深入到我们私密的家居环境中。

图罗认为，智能语音产业仍在建构之中，对社会的渗透还没有达到公众无法撼动、无法改变的地步。“因此，现在正是时候推广相关观点和制定相关政策，以规范这个利用语音进行生物识别的营销世界。”

约瑟夫•图罗（Joseph Turow），宾夕法尼亚大学安嫩伯格传播学院传播学教授，获颁美国国家传播学会杰出学者奖，长期专注市场营销、新媒体和隐私问题。（受访者供图）

谷歌曾想在所有汽车后座上安装传感器

南方周末：你长期专注市场营销、新媒体和隐私问题，被认为是数字时代隐私问题方面的传播专家。你最初为什么会关注到智能语音行业的隐私问题？

约瑟夫·图罗：我的上一本书（《监控无处不在：零售商如何追踪消费、侵犯隐私、评估客户》）聚焦于商店在线上网络和线下实体空间追踪人们的方式，这本书于2017年出版后，我认真考虑了下一步的重点。我清楚地认识到，我们称为生物识别追踪的方式正在成为营销者的主要方向——即根据人体的各个方面对其追踪。

政府和私营企业已经开始对人的脸部、手指、视网膜甚至走路方式进行检查，以便识别他们的身份。我想展示的是，声音是如何开始成为营销者追踪、标记他们，以及向他们投放个性化信息的工作模式。智能语言行业是一个很好的起点，当时这个行业正在蓬勃发展。

南方周末：近年来，大规模人脸识别技术普及涉及的数据隐私伦理问题已有很多讨论。但少有人谈论语音数据的泄露风险问题，这是为什么？

约瑟夫·图罗：这是个好问题。我认为答案与人脸识别是一种明显的入侵有关。我们都听过这样的故事：人们——有时甚至是整个族群——是如何被摄像机以令人吃惊、有时甚至是令人震惊的方式识别出来的。但我认识的大多数人几乎都没有想过，一个人的声音不仅能识别他的身份，还能提供有关他的身体特征、疾病和（至少根据营销者的说法）情绪状态等方面的信息。

南方周末：我们的声音可以揭示我们的哪些信息，这些信息又可能被怎样利用？根据你的研究，相关技术目前发展到了什么阶段？

约瑟夫·图罗：我接触过的权威研究人员和他们的著作都强调可以从一个人的声音中了解很多东西，包括他们的身份(即使随着时间推移）、身高、体重、一些可能的疾病，甚至一个女人是否在一定时间后服用过避孕药。

营销人员还试图推断人们的情绪状态。但与我交谈过的几位研究人员说，这种推断可能是最不可靠的，原因在于，情绪是有文化偏差的。一个人生理上可能是兴奋的，但在一个群体中可能表现为一种情绪，在另一个群体中则可能表现为另一种情绪。

南方周末：你花了多长时间研究、撰写这本书？你接触到了很多业内人士，这个过程艰难吗？他们的回答能否满足你的好奇心？

约瑟夫·图罗：我为这本书工作了大约三年，采访了大约25位来自智能语音和广告行业的人士，参加了各种会议，阅读行业公告和杂志。总的来说，与我交谈过的人都愿意发言，而且乐于助人。我得到了很多不同公司如何花费大量时间思考——如何尽可能多地了解他们想要销售的对象的信息，它们都和语音有关。

我采访过的一个人给我讲了一个故事——后来我通过报纸上的报道证实了这一点——谷歌想在所有汽车后座上安装传感器，以了解乘客的年龄。沃尔沃拒绝了这一要求，但无论如何，谷歌现在是沃尔沃的主要语音伴侣，至少在西方是这样。

“他们希望，如果他们不说话，任何讨论都会消失”

南方周末：你试图向公众揭示语音信息不为人知的用途。本书出版以来，有没有更棘手的风险出现？

约瑟夫·图罗：风险是双重的。一类风险与营销人员识别人的方式有关，他们会根据声音和其他特征对人进行分类。这可能并且已经在人们可以看到的广告种类、获得的折扣种类、体验产品的机会种类等方面导致了各种偏见。除了尊严受损，如果公司通过声音发现一个人患有某种疾病或处于某个特定年龄段，这个人也可能会蒙受损失，他们可能会以非常不同的方式对待这个人。

另一种截然不同的风险与我说的“隐性课程”（hidden curriculum）有关。隐性课程是对世界如何运作的一种未申明的理解。当人们习惯于不仅将自己的人口数据和行为数据交给营销人员，还将自己的身体数据交给营销人员时，久而久之，他们就会觉得这是一种正常的行为方式。

他们甚至可能接受政府、警察和军队在这方面的行动。在美国，有人反对警方使用摄像头进行人脸识别，因为它们可能并不准确，而且会侵入人们的生活。如果他们开始使用语音识别技术会怎么样呢？

南方周末：这本书出版后引起了哪些关注或讨论?

约瑟夫·图罗：很高兴看到这本书在美国和欧洲引起了讨论，尤其是在学术界和政策制定者中。我甚至向美国联邦贸易委员会就我研究结果的一些影响发表了演讲。

南方周末：智能语音行业，尤其是谷歌、亚马逊等科技巨头有没有作出回应？

约瑟夫·图罗：老实说，语音行业并没有参与讨论。坦率地说，我认为他们希望，如果他们不说话，任何讨论都会消失。

南方周末：在中国，人们使用一些社交软件时，会发现收到和线下说过的话有关的推送内容。就你的了解，这是一种监听行为吗？

约瑟夫·图罗：在美国，人们也坚信他们收到的广告和短信是基于他们对语音助手说的话。就我的了解，在美国和欧盟，语音助手不会偷偷监听，然后根据听到的内容发送广告。这种“说着说着就能看到相关文字”的巧合还有其他原因。但人们相信它，并为此感到紧张这一事实本身就很重要，它说明了技术如何改变了人们对现实的看法。

南方周末：你对ChatGPT有何看法？它会给数据隐私带来新的风险吗？

约瑟夫·图罗：这本身就是一个大话题。当然，生成式人工智能将以多种方式应用于语音助手，它将重塑或许重振智能音箱业务。它还会强化我在《声音捕手》中讨论过的许多问题，因为商家会让语音助手根据人工智能对人们的推断来与他们交谈，这会进一步侵犯人们的隐私。

南方周末：你在最后谈到了美国、欧盟、中国的相关监管措施。你认为什么样的监管是有效的？

约瑟夫·图罗：我认为，在营销中使用生物识别数据应该是非法的，包括声音。