隨著數位設備的普及,影像變得隨手可得,使許多 AI 供應商陸續投入開發影像分析技術,但同樣也充斥於我們日常生活中的「聲音」卻經常被忽略。比起視覺,聽覺更能夠無時無刻地陪伴消費者,更造就 Podcast 等聲音經濟崛起,聲音行銷將會是未來的大趨勢。

成立於 2019 年的迪威智能(DeepWave),憑藉 AI 深度學習與音訊分離技術,提供企業音訊處理方案,辨別人聲並將其從音樂中抽離出來,也可進行噪音辨識,乾淨分離不重要的聲音內容,優化聲音品質,有助於企業降低人力成本,減輕工作人員的聽力負擔,可廣泛應用於視聽娛樂產業、製造業、教育等產業。

目前成員只有 15 人的迪威智能,是透過政府的價創計畫從台大資工所獨立出來的新創團隊,DeepWave 產品總監葉松瓚分享,「我們是一群熱愛音樂的工程師,想要用科技為音樂創造更多的互動方式,使音樂創造更大的價值!」

市面上有許多音訊處理技術的供應商,不過葉松瓚表示,「以滿分 10 分來說的話,跟現行市面上其他 AI 技術比起來,我們變形最小。」聲音資訊並不是以精準度來計算,而是以「相似度」作為衡量標準,經過音訊處理後,聲音扭曲變形的程度越低,相似度則會越高,若以滿分 10 分來評分,迪威智能提供的服務能夠使音訊相似度落在 8 分左右。

迪威智能團隊
迪威智能團隊。
圖片來源:

AI 聲學辨識技術:解構聲音,乾淨抽離各種音訊

人聲分離與樂器分析為迪威智能 AI 聲學識別技術的兩大應用方向,針對不同的應用方向,發展出針對不同客群的產品,例如主打去噪及提升人聲清晰程度的「Hullaballoo」與提供樂聲分離服務的「Sovia」產品。

在過去還沒有 AI 幫忙的年代,如果要做這方面的音訊處理,大多都是將音檔中的頻譜截出來後過濾高音與低音部分,「但是在頻譜裡面跟人聲重疊的噪音是去不掉的,頂多壓到很小聲。」葉松瓚指出,AI 音訊處理的應用則不同,他們會告訴 AI 人的聲音有哪些特徵,在頻譜上的樣貌為何,便能乾淨分離各種音訊。

看似簡單的音訊分離技術,其應用領域卻相當廣泛,包括數位內容、線上教學等。以數位內容製作來說,迪威智能可協助新媒體內容創作者與新聞記者處理耗時又繁瑣的雜音消除過程。葉松瓚以電視新聞媒體客戶為例,其部分新聞節目便是使用迪威智能的降噪服務,讓記者播報的人聲更加清晰,提升新聞品質的同時,媒體也得以將人力資源投注在更重要的事務上。

不僅能抽離人聲與背景音,識別各種樂器也是迪威智能的強項之一。後疫情時代,教學場域不再限於校園,線上語言學習與音樂指導的備課與學習成效追蹤成一大難題。

葉松瓚舉例說明,像吉他老師在網路上找不到適合學生目前程度的樂譜,又或者歌唱老師找不到冷門歌的背景音樂,迪威智能都可透過 AI 協助他們找到想要的歌譜、生產背景音樂等。此外,老師也不必到學校或家裡驗收學生練習成果,迪威智能可比對學生演唱、彈奏的音軌與樂譜的相似程度,成為老師教學上的得力助手。如中國視感科技的線上吉他教學軟體便是採用迪威智能的技術,讓音樂學習變得更加有效率,減輕老師備課壓力。

「我們能為人聲、鋼琴、吉他評分,當然也可以幫機器聲音評分。」除了商業內容與線上教學應用之外,迪威智能 AI 音訊處理解方也擴及智慧製造領域,以機器耳代替人耳來進行聲音監控。葉松瓚以鋼鐵大廠客戶為例,工廠中引擎、馬達等長時間發出聲音的機械通常放置在高溫、不容易接觸的保護區域裡,採用迪威智能 AI 聲學辨識技術後,便能將蒐集來的機器運轉聲與正常運作的聲音資料做比對,監控生產線機器的健康,及早發現機械運作異常,延長機器使用壽命。

音箱與喇叭製造廠也是迪威智能的客戶之一。過去其產品都是由聽音員來進行品質檢驗,雖然聽音員都有經過長期的訓練,但以人耳來辨識聲音品質難免會出現標準不一的窘境,也會造成人員聽覺受損的職業傷害;導入迪威智能的 AI 用於檢測產品音質,不僅大幅降低聽音員的工作負擔,也讓產品檢測能有更一致的標準。

迪威智能
圖片來源:

未來聲音玩法不受限,語者識別、聲音打卡成趨勢

迪威智能持續挖掘音訊處理的各種可能性,葉松瓚舉例,以目前的技術可做到客服話術監控,透過設定系列關鍵字,只要銀行客服人員提到這些字眼,系統便可跳通知提醒公司,找出表現不佳的客服或業務加以訓練。然而,此技術目前尚難以實際落地於金融業的系統中,「因為金管會監管的公司、單位,在資安設定上有較嚴格的條件。」此外,銀行單位有內建防火牆與伺服器,在整合進對方系統的過程中並不順遂。

雖然目前監管的問題仍有待解決,但迪威智能「語者識別」技術已通過經濟部工業局 AI 能量登錄認證,專業技術不容小覷。

經過 AI 處理,聲音資訊扭曲變形的程度較小,迪威智能可有效透過聲音來驗證身份。松瓚舉例說明,假設金融相關的語音客服要求對方念出出生年月日或身分證末三碼來驗證身份,此時若採用「語者識別」的技術,錄下對方的聲音來確認是不是本人,就可以多一層身份驗證的保障。

針對現在各行各業都在主打的「聲音經濟」,大多都還停留在 Podcast 等聲音節目,其實它還能有更多可能。執行長林智源指出,透過 AI 比對聲音的原理,聲音也可以作為一種在場證明,用來判斷消費者是否有完成某種行為、到特定場所,也就是以聲音打卡來取代過去發文的打卡形式,「有很多互動方式,聲音或許是一種選擇,我們也期待未來有這樣的客戶出現。」

  • 公司名稱 |

    迪威智能股份有限公司

  • 核心產品 |

    AI 音訊處理技術

  • 合作案例 |

    官方網站

  • 聯繫方式 |

    sung.yeh@dwave.cc

分享