Meta(原Facebook)自豪地宣布其最新成果——唇讀語音識別AI,其單詞錯誤率(WER)已經下降 75%– 迄今為止該領域的最佳成果。
有效的溝通涉及言語、手勢、語氣等——本質上是言語和非言語元素。到目前為止,即使是最先進的人工智能也只能成功識別語言線索(與人類不同,人類使用視覺線索,如嘴唇運動、面部表情和手勢,作為語言學習的關鍵要素)。但是,得益於 Meta 的視聽隱藏單元 BERT (AV-HuBERT) 框架,該框架通過聆聽和觀看人們交流來學習理解語言,這種情況即將改變。
Meta 發言人克里斯汀·莫雷亞 (Kristen Morea) 報導說,該公司已5000萬美元迄今為止,為了確保元宇宙的安全建設,我們對外部項目進行了巨大的投資。她還指出,Meta 推出了四項負責任的創新原則“以道德、隱私、安全和安保為首要”的發展。來自一家過去很少尊重員工的公司隱私和道德問題然而,我們不能說我們對其用戶深信不疑。但讓我們看看 Meta 最近在做什麼。
唇讀人工智能
為了開發唇讀人工智能,Meta 使用 AV-HuBERT,這是一種獨特的技術多式聯運結合音頻和嘴唇運動線索來感知語言的學習系統。 Meta 透露,AV-HuBERT 已經捕獲了視覺和聽覺數據之間的“微妙關聯”,這要歸功於它能夠識別語音的視覺線索(如嘴唇和牙齒的運動)並將其與傳入的聽覺信息配對。
最重要的是,AV-HuBERT 在無人監督的情況下工作,或者更準確地說,是自我監督的。它具有使其能夠通過數據處理和從固有數據結構中學習來自學對未標記數據進行分類的機制。
與之前的唇讀模型(例如牛津大學和 Alphabet 開發的模型)相比,這是一個巨大的進步;詞彙範圍有限,無法處理視頻中講話者的音頻。最好的情況是,對這些樣本進行重複訓練,以標記示例數據,以繪製示例與相關輸出之間的聯繫。因此,當顯示拉布拉多犬的圖片(示例)時,他們最終會寫出“dog”的輸出。

3D虛擬辦公室
與此同時,我們還有Environments公司的首席執行官McDannald(一種所謂的虛擬現實沉浸式工作體驗)測試其產品——創建辦公室內部VR複製品的軟件。目前,她有五名員工在虛擬辦公室中使用 Meta 的 Oculus 耳機工作。這些員工中的每一位都有自己的個人頭像(在某種程度上與他們相似),她可以隨時走到他們的虛擬辦公桌前簽到。此外,根據不同的場合,頭像的頭頂上會帶有不同的圖標,例如紀念工作週年紀念日——非常讓人想起《模擬人生》這款遊戲。
你無法被鎖定在元宇宙中。您可以隨時退出虛擬宇宙。
這一切不僅會發生非常令人毛骨悚然的轉變,這取決於虛擬現實產品的應用和負責其實現的人,而且還伴隨著隱私侵犯的一些巨大危險。與迄今為止存在的任何傳統篩選方法相比,VR 耳機可以收集更多有關我們的數據。這使雇主和公司能夠訪問可用於分析和廣告的私人數據,同時增加了行為(甚至思想)監控的風險。
AV-HuBERT 的性能優於所有以前的視聽語音識別系統,儘管到目前為止,它所使用的數據量僅為其前身的十分之一——WER(字錯誤率)僅為 26.9%。此外,在嘈雜的背景噪音中破譯語音內容方面,它比所有現有的純音頻模型要好 50%。
它的創建者聲稱 AV-HuBERT 在未來可以有許多崇高的用途,例如創建對話模型低資源語言或為有言語障礙的人開發語音識別系統。然而,許多研究人員和華盛頓大學人工智能倫理學家 Os Keyes 已經指出這些說法是不合理的。
設法構建依賴於唇讀的語音識別軟件似乎有點諷刺,並且當指向……聾人時可能會出現不准確的情況。
華盛頓大學人工智能倫理學家 Os Keyes
許多專門研究唐氏綜合症、帕金森病和中風病例的學者和研究人員也得出了類似的結論——AV-HuBERT 在這些病例中可能不會有效,因為患有這些疾病的人很可能不會有與神經正常人相同的面部表情。
比Meta正在開發的語音識別人工智能的缺點更令人不安的是該技術的隱患。想像一下,威脅行為者只需安裝一個純視頻攝像頭,就可以輕鬆地從您最敏感的對話中收集數據。對於具有不受限制的數據收集能力的 Meta VR 產品來說也是如此。勒索、心理操縱以及更糟糕的情況只是一長串可怕的潛在場景中的一些例子。
從倫理的角度來看
由於以前無法訪問的生物識別信息現在可供我們的雇主、隨機公司、政府,甚至可能是威脅行為者使用,最令人擔憂的部分仍然是 Meta 是這些數據收集技術進步的壟斷者。
到目前為止,我們還不能說 Meta 或 Facebook(我們仍然不相信更名可以消除有問題的歷史),合理地使用了其發現和資源,或者激發了處理用戶數據的信心。一場又一場的訴訟讓該公司重新評估其創新原則、改變經營策略、重塑品牌,但Meta未來會尊重用戶的隱私權嗎?隨著這些新技術進步的到來,我們只能希望如此。
