許多視訊會議系統會自動追蹤發音來源,將窗口切換到大聲說話的人身上,但這個設計對手語交流者而言,很難輕鬆有效地進行溝通。為了解決這個問題,Google 研究團隊提出了一個即時手語檢測模型。

近日在 ECCV 2020 和 SLRTP 2020 全球頂會上,Google 的研究團隊提出了一個即時手語檢測模型,並詳述了該模型將如何用於視訊會議系統中識別「發言人」的過程。

圖片來源: Google AI Blog

1. 設計思路

為了主動適配主流視訊會議系統所提供的會議解決方案,研究團隊採取了一種輕量型、即插即用的模型。該模型占用 CPU 小,盡量降低對客戶端通話品質的影響。為了減少輸入的維度,採用從視訊中分離所需訊息,對每個幀進行分類。

「由於手語涉及用戶的身體和手兩部分,我們先運行了人體姿態估計模型 PoseNet,這樣可將輸入從整個高畫質圖像大幅分減到用戶身體上的一小部分,如眼睛、鼻子、肩膀、手等關鍵特徵點(landmarks)。然後,我們再將這些關鍵特徵點用於計算每一幀光流(Optical Flow),從而在不保留用戶特定訊息的前提下就能量化用戶的姿態特徵。每個姿態都透過人的肩膀寬度進行歸一化,以確保模型在距離攝影鏡頭一定距離內注意到用戶的手勢。最後,將光流透過視訊的幀速率進行歸一化,再傳遞給該模型。」

為了測試這種方法的有效性,研究團隊採用了德語手語語料庫(DGS),該語料庫包含人體手勢的長視訊(含跨度注釋)。基於訓練好的線性回歸模型基線,使用光流數預測人體手勢何時發出。該模型基線可達到 80% 的準確度,每一幀僅需要約 3μs(0.000003秒)的處理時間即可完成。透過將前 50 個幀的光流作為該模型的上下文,最終達到 83.4% 的準確度。

團隊使用了長短期記憶網絡(LSTM)架構,該模型可實現的 91.5% 的準確度,每一幀的處理時間約為 3.5 毫秒(0.0035秒)。

圖片來源: Google AI Blog

2. 概念驗證

在實際的場景中,有了運行完備的手語檢測模型僅是第一步,團隊還需要設計一種方法來出發視訊會議系統的主動式揚聲器功能。團隊開發了一款輕量級的在線手語檢測演示 demo,可以連接到任何視訊會議系統上,並將手語交流者設置為「發言人」。

當手勢檢測模型確定用戶正在進行手語交流時,它會透過虛擬音頻電纜傳遞超聲音頻,任何視訊會議系統都可檢測到該音頻,就好像手語交流者正在「講話」一樣。音頻以 20kHz 傳輸,通常在人類聽覺範圍之外。因為視訊會議系統通常將音頻的音量作為檢測是否正在講話的標準,而不是檢測語音,所以應用程序會誤以為手語交流者正在講話。

圖片來源: Google AI Blog

目前這款模型的在線視訊演示源代碼已經公布在 GitHub 上。

3. 演示過程

在影片中,研究團隊演示了如何使用該模型。影片中的黃色圖表反映了模型在檢測到手語交流時的確認值。當用戶使用手語時,圖表值將增加到接近 100,當用戶停止使用手語時,圖表值將降低至 0。

為了進一步驗證該模型效果,團隊還進行了一項用戶體驗回饋調查。研究要求參與者在視訊會議期間使用該模型,並像往常一樣進行手語交流。他們還被要求互相使用手語,以檢測對說話人的切換功能。回饋結果是,該模型檢測到了手語,將其識別為可聽見的語音,並成功識別了手勢參與人。

總結

從目前來看,此次嘗試的出發點及過程中採用的一系列方法的可操作性均本著場景落地為出發點,儘管從實際應用中可能還會出現更多意想不到的用戶需求,如不同國家地區的手語存在巨大差異等問題,如何將這些能力抽象出來滿足更多的人群,將是接下來對這項工作能在商業環境中真正落地需要積極思考的方向。

資料來源:Google AI Blog

本文轉載自《雷鋒網

作者介紹 |

雷鋒網

雷鋒網成立於 2011 年,秉承「關注智能與未來」的宗旨,持續對全球前沿技術趨勢與產品動態進行深入調研與解讀,是中國具有代表性的實力型科技新媒體與訊息服務平台。

分享