Whisper 是最好的語音轉文本軟件嗎?

根據其創建者OpenAI 的說法,自動語音識別 (ASR) 系統 Whisper 在英語語音識別方面接近“人類水平的魯棒性和準確性”。ASR 或語音轉文本 (STT)系統于 2022 年 9 月 21 日發布;隨后是 2023 年 3 月的Whisper API。
該開源模型基于從網絡收集的680,000 小時多語言和多任務監督數據進行訓練。Whisper 在轉錄質量不完美的大型、多樣化數據集上的訓練受益于多樣性和規模;只做了一些努力來手動糾正最大的問題。
Whisper 能夠在沒有中間步驟的情況下進行多語言轉錄和英語單次翻譯。API 允許開發人員訪問 50 種語言的前沿翻譯和轉錄。盡管該模型最初是針對 98 種語言進行訓練的,但僅包括單詞錯誤率 (WER) 低于 50%(行業標準基準)的語言。
根據 OpenAI 的研究論文,質量和數量之間的回報是成功的。當呈現廣泛多樣的數據時,Whisper 優于其他經過微調的 ASR 模型,平均錯誤減少 55%。對于具有多個不同揚聲器的數據,以及存在口音、背景噪音或技術術語的數據,該系統也表現出色。
然而,OpenAI 表示 Whisper 在干凈的基準數據集上的表現并不顯著。該系統的表現并不優于專注于LibriSpeech 性能的模型——這是語音識別領域的競爭基準——因為 Whisper 沒有在特定數據集上進行訓練。
此外,性能因語言而異。通常,高資源語言比低資源語言表現得更好。研究人員還注意到,與許多大型語言模型一樣, Whisper也會出現幻覺。一些人認為這不重要,只是在這個領域的課程中。
像 Whisper 這樣的 ASR 系統不能立即用于所有用例,需要人工干預。OpenAI 的論文得出結論,為了獲得最佳質量的結果,應該首選專家在環方法。
小聲反對它
以下只是一些替代方案以及它們與 Whisper 的比較。應該注意的是,其中一些比較是不客觀的;競爭對手進行了研究。
Slator 對Whisper 和 Descript的分析發現,對于口語和背景噪音的一段困難視頻,Whisper 對無法識別的單詞產生了更有創意的猜測;描述傾向于簡單地省略未知詞。
2022 年 11 月,captions.ai 比較了Whisper 和谷歌旗艦 STT API 的轉錄準確性。他們以近乎完美的 Eminem 的“Godzilla”改編版——這首歌創造了單曲最快說唱世界紀錄——在準確性方面,他們揭曉了 Whisper 的獲勝者。相比之下,谷歌的 STT API 并沒有接近轉錄它。Whisper 在幾個英語語言環境中的快速語音和口音也表現更好。
2023 年 3 月 6 日,谷歌推出了其通用語音模型(USM),該模型具有100多種語言的最先進的多語言 ASR和適用于多個領域的各種數據集的自動語音翻譯 (AST) 功能。谷歌發現 USM 的 WER 低于 Whisper。
兩個月后,Meta 于 2023 年 5 月 22 日公布了其大規模多語言語音 ( MMS ) 項目。Meta 建議這些模型“優于現有模型,覆蓋的語言數量是現有模型的 10 倍”,其中包含 1,100 多種語言的標記數據和 4,000 種語言的未標記數據包括一些只有幾百人為母語的人。根據 Meta AI 的說法,在 MMS 數據上訓練的系統的 WER 是 Whisper 的一半。然而,需要在更廣泛使用的語言上與 Whisper 進行直接比較。
最后,Deepgram 制作了一份白皮書基準報告,將其自身的能力與 Whisper 進行了比較。Deepgram 強調了 WER 在“簡單”音頻和更具挑戰性的真實世界音頻之間的明顯差異。他們得出結論,“Deepgram 提供更高的準確性、更豐富的功能、更低的運營成本、更快的處理速度”等等。事實上,Deepgram 的主頁指出,“創新者正在從 Whisper 的語音到文本 API 轉向 Deepgram,以實現智能語音應用程序的未來”,盡管尚不清楚這是如何衡量的。
耳語在行動
耳語很快出現在整個語言領域。Slator 的 2023 年語言行業市場報告展示了 STT 技術的擴展用例,包括可訪問性、參與度和業務分析。
字幕巨頭AI Media已通過其云服務提供 Whisper,Happy Scribe 的轉錄服務現在基于 Whisper 并進行了微調,工作流自動化工具Zapier現在提供了 Whisper 連接器。
Ramsri Goutham Golla 向 SlatorPod 介紹了他的最新項目Supertranslate,這是一款由 Whisper 提供支持的一鍵式字幕應用程序,無需中間翻譯引擎即可提供英文字幕。
Whisper 的意義不僅限于性能。通過 Whisper,OpenAI 驗證了一種構建語音識別模型的新方法,并且 Whisper 是開源的,可以解鎖大量的音頻/視頻內容。開放人工智能研究人員強調了 Whisper 的未來潛力。例如,如果其他人有能力通過開發額外的應用程序來改善可訪問性工具,以“允許近實時的語音識別和翻譯”。