上字幕,沒耐性?不如來試試 AI 聲音濾鏡!

EnterBox | 人工智能


平常開箱新的硬體,基本上脫離不了這兩種情況-好玩,或是可以增加工作效率。但這次開箱的不是硬體而是軟體,而且一次就包含了這兩種情況。中華電信新推出了一個叫做 AI 聲音濾鏡的服務,第一次看到這個名字的時候,我還以為是那種幫人把聲音變成機器人或者男聲變女聲,女聲變男聲的那種 App。結果試用了一下才發現完全跟我想的不一樣。簡單來說他是一款語音轉文字的軟體,至於他有什麼特別之處,馬上就帶大家來體驗看看吧!



整個軟體是部屬在中華電信雲端上的,不需要額外安裝任何軟體,只需要打開瀏覽器就能使用。畫面上的語音轉文字管理介面是所有上傳或是錄製的檔案都會出現在這邊。可以透過自己設定的節目或是單集名稱,甚至是內容來進行搜尋。



第三頁則是即時錄音,除了已經錄製好的音檔丟上去之外,還可以透過即時錄音的方式轉成逐字稿,實際效果在後面會測試給大家看看。



接下來先示範新增已經錄製好的音檔並且自動生成字幕的功能。首先先上傳要轉換的音檔或是連結,然後再輸入節目名稱。音檔連結的部分僅支援可以直接下載音檔的連結,簡單來說就是看到網址結尾是 mp3 或是其他音樂檔案類型之類的才可以。而輸入節目名稱時要特別注意,輸入好字之後記得要先按一下 Enter 再按其他地方,不然打好的字會不見。



再來類別的地方選擇與內容主題相關的類別,這樣理論上辨識度可以提高。如果類別沒選好可能會有同音的字詞被辨識成非預想的狀況。不過某方面來說,或許脫口秀可以用它來發掘一些諧音梗也說不定 XD。



語言的部分如果音檔內包含台語的話可以選擇國台語辨識,雖然還只是 BETA 階段,但是辨識程度我個人認為已經具有相當的水準。當然可預期的是不可能比純國語還好,但整體來說一些常用的台語單字辨識都是沒問題的。



如果你的節目或是影片裡聲音的人數超過一人的話,也可以選擇錄音人數,像是會議記錄或影片字幕需分辨發聲者的話,此功能就可以派上用場。



都設定好之後按下確定,因為他要將檔案先上傳到雲端進行處理,如果檔案比較大的話就要等一陣子,時間取決於網路速度。上傳好之後會開始進行辨識,狀態欄會顯示進度,變成啟用時就可以了。實測使用 MP3 和 WAV,同個音檔大小相差約 10 倍,轉檔的時間大約都是音檔長度的 1/2~1/3 左右,與檔案大小並沒有什麼太大的關係,像是 45 分鐘的檔案從上傳到分析好大約是 25 分鐘左右,或許網路更快上傳時間還能縮短。



上傳好的檔案可以在這邊進行字幕的校正,辨識出來的字或詞幾乎都對,但是斷句的部分就差比較多,雖然說這邊可以使用時間軸修正,但畢竟只能直接打數字,建議是先在這邊幫內容校正,時間軸再搭配其他軟體進行調整會更方便。都修改完之後按下校正完成就可以了。要特別注意的是在字幕這邊修改的會複寫到逐字稿,而在逐字稿修改的不會複寫到字幕,操作上需要注意一下。



下載這邊可以選擇直接下載成 srt 檔或是一個包含所有資訊的 html 檔案,依照需求選擇就可以了,如果是要幫影片上字幕,下載 srt 檔真的挺方便的。



html 檔裡面包含了剛設定的節目名稱、單集名稱,以及熱詞資訊還有簡單的音檔資訊。底下則是像字幕檔一樣把時間軸和字幕都列出來。可以看到維基百科中「量子電腦是一種使用量子邏輯進行通用計算的裝置。」基本上字都對,只是斷句不太對而已。



假如需要逐字稿,中華電信的 AI 聲音濾鏡也幫你準備好了。特別的是逐字稿的標點符號與字幕的斷句是不一樣的,逐字稿的標點符號會更符合正常的斷句邏輯。個人感覺確實比字幕的斷句好一些,但是因為有些詞辨識的不對,所以斷句也會不太對,如果字幕有先在前一頁面校正過的話,斷句的正確率會更高。



熱詞的部分對於網路行銷是相當重要的,簡單的用就是像 PO 文常看到的 #… 之類的,除了讓觀眾更容易找到你的節目之外,像是 Youtube 等平台也能更精準地幫你推薦給觀眾。



再來測試一下國台語的辨識,記得要在底下語言那邊選擇國台語,不然辨識度可能會非常差。



實際測試同一句話先用先用國語講再用台語講,基本上國語的翻譯都對,但台語的有一兩個字可能沒辨識到。不過出乎意料的是「沒魚蝦也好」這種類型的諺語也能翻譯。



再來測試一下即時錄音的效果,介面跟剛剛的語音轉文字管理很像,按下新增即時錄音就可以了。



錄音的介面相當簡潔,如果要直播的時候就打開按下開始錄音,結束時就可以省下很大一部分上傳還有分析的時間了。



語言這邊除了剛剛看到的國台語之外,也可以選擇國英語。不論選擇什麼語言,國語部分的辨識個人覺得都是很不錯的。



選好語言之後在錄音中途按下暫停可以切換語言。我自己實測英文的辨識效果只能說有待加強,不論是穿插在句子中的單字還是獨立念一個單字都辨識不出來。像是最下面那個「故」各位能猜的到我是說哪個單字嗎?



這邊字幕準確信心度是指系統覺得他辨識的詞和你說的有多像。簡單來說,不論是影像辨識還是聲音辨識,其原理大多都是電腦都會先將樣本擷取出很多個特徵,然後再將比對目標看看有多少特徵是符合的。要是中華電信還能進一步標記在下載的字幕檔裡,這對於使用者之後的校正來說應該會是相當不錯的。



再來使用國台語辨識,效果比國英語好太多了!雖然說有部分的句子可能還是辨識不出來或是辨識錯誤,但是我覺得效果在實務作業上是能起到輔助的效果。



另外我也用了網路上的免費的開源程式 pyTranscriber 來做測試,就中文辨識這塊來說中華電信的 AI 聲音濾鏡可以說是完勝。如果你平常有在仰賴 pyTranscriber 這個程式工作的中文創作者,可以考慮轉換到中華電信的 AI 聲音濾鏡,雖然不是免費,但省下來的時間絕對超過訂閱的價格。



我一共測試了 4 分鐘 MP3、8 分鐘 MP3、40 分鐘 MP3 以及 4 分鐘 WAV 檔,還有國台語和國英語的測試,得出以下結論。辨識準確度與音檔時間無明顯關係,與檔案類型也無明顯關係。另外台語辨識也比英語辨識準確的多。



總結來說,身為一個資訊領域的人,大致上很清楚語音辨識目前的程度大概如何。這次的中華電信 AI 聲音濾鏡我認為表現是超過我原本所預期的,我相信對於一些沒有逐字稿的文字工作者來說會是相當有幫助的。另外假如你每次的節目或是訪談完都有校正字幕的話,整個 AI 聲音濾鏡還能再繼續透過修正的字幕做學習,再加上中華電信本身對於軟體服務的更新,辨識能力還能越來越好,可以說是「早買早享受,越用越好用!」