Meta(原Facebook)自豪地宣布其最新成果——唇读语音识别AI,其单词错误率(WER)已经下降 75%– 迄今为止该领域的最佳成果。
有效的沟通涉及言语、手势、语气等——本质上是言语和非言语元素。到目前为止,即使是最先进的人工智能也只能成功识别语言线索(与人类不同,人类使用视觉线索,如嘴唇运动、面部表情和手势,作为语言学习的关键要素)。但是,得益于 Meta 的视听隐藏单元 BERT (AV-HuBERT) 框架,该框架通过聆听和观看人们交流来学习理解语言,这种情况即将改变。
Meta 发言人克里斯汀·莫雷亚 (Kristen Morea) 报道说,该公司已5000万美元迄今为止,为了确保元宇宙的安全建设,我们对外部项目进行了巨大的投资。她还指出,Meta 推出了四项负责任的创新原则“以道德、隐私、安全和安保为首要”的发展。来自一家过去很少尊重员工的公司隐私和道德问题然而,我们不能说我们对其用户深信不疑。但让我们看看 Meta 最近在做什么。
唇读人工智能
为了开发唇读人工智能,Meta 使用 AV-HuBERT,这是一种独特的技术多式联运结合音频和嘴唇运动线索来感知语言的学习系统。 Meta 透露,AV-HuBERT 已经捕获了视觉和听觉数据之间的“微妙关联”,这要归功于它能够识别语音的视觉线索(如嘴唇和牙齿的运动)并将其与传入的听觉信息配对。
最重要的是,AV-HuBERT 在无人监督的情况下工作,或者更准确地说,是自我监督的。它具有使其能够通过数据处理和从固有数据结构中学习来自学对未标记数据进行分类的机制。
与之前的唇读模型(例如牛津大学和 Alphabet 开发的模型)相比,这是一个巨大的进步;词汇范围有限,无法处理视频中讲话者的音频。最好的情况是,对这些样本进行重复训练,以标记示例数据,以绘制示例与相关输出之间的联系。因此,当显示拉布拉多犬的图片(示例)时,他们最终会写出“dog”的输出。

3D虚拟办公室
与此同时,我们还有Environments公司的首席执行官McDannald(一种所谓的虚拟现实沉浸式工作体验)测试其产品——创建办公室内部VR复制品的软件。目前,她有五名员工在虚拟办公室中使用 Meta 的 Oculus 耳机工作。这些员工中的每一位都有自己的个人头像(在某种程度上与他们相似),她可以随时走到他们的虚拟办公桌前签到。此外,根据不同的场合,头像的头顶上会带有不同的图标,例如纪念工作周年纪念日——非常让人想起《模拟人生》这款游戏。
你无法被锁定在元宇宙中。您可以随时退出虚拟宇宙。
这一切不仅会发生非常令人毛骨悚然的转变,这取决于虚拟现实产品的应用和负责其实现的人,而且还伴随着隐私侵犯的一些巨大危险。与迄今为止存在的任何传统筛选方法相比,VR 耳机可以收集更多有关我们的数据。这使雇主和公司能够访问可用于分析和广告的私人数据,同时增加了行为(甚至思想)监控的风险。
AV-HuBERT 的性能优于所有以前的视听语音识别系统,尽管到目前为止,它所使用的数据量仅为其前身的十分之一——WER(字错误率)仅为 26.9%。此外,在嘈杂的背景噪音中破译语音内容方面,它比所有现有的纯音频模型要好 50%。
它的创建者声称 AV-HuBERT 在未来可以有许多崇高的用途,例如创建对话模型低资源语言或为有言语障碍的人开发语音识别系统。然而,许多研究人员和华盛顿大学人工智能伦理学家 Os Keyes 已经指出这些说法是不合理的。
设法构建依赖于唇读的语音识别软件似乎有点讽刺,并且当指向……聋人时可能会出现不准确的情况。
华盛顿大学人工智能伦理学家 Os Keyes
许多专门研究唐氏综合症、帕金森病和中风病例的学者和研究人员也得出了类似的结论——AV-HuBERT 在这些病例中可能不会有效,因为患有这些疾病的人很可能不会有与神经正常人相同的面部表情。
比Meta正在开发的语音识别人工智能的缺点更令人不安的是该技术的隐患。想象一下,威胁行为者只需安装一个纯视频摄像头,就可以轻松地从您最敏感的对话中收集数据。对于具有不受限制的数据收集能力的 Meta VR 产品来说也是如此。勒索、心理操纵以及更糟糕的情况只是一长串可怕的潜在场景中的一些例子。
从伦理的角度来看
由于以前无法访问的生物识别信息现在可供我们的雇主、随机公司、政府,甚至可能是威胁行为者使用,最令人担忧的部分仍然是 Meta 是这些数据收集技术进步的垄断者。
到目前为止,我们还不能说 Meta 或 Facebook(我们仍然不相信更名可以消除有问题的历史),合理地使用了其发现和资源,或者激发了处理用户数据的信心。一场又一场的诉讼让该公司重新评估其创新原则、改变经营策略、重塑品牌,但Meta未来会尊重用户的隐私权吗?随着这些新技术进步的到来,我们只能希望如此。
