現今應該很多人跟我一樣,常常都會用 Whisper 來將影片、音訊檔轉成文字,尤其是需要記錄會議的人,甚至是轉成影片字幕檔也沒問題。而先前的 large-v3 雖然準確度很高,但轉換速度真的有一點慢。
現在,終於有更快的版本了!稍早 OpenAI 正式推出最新「large-v3-turbo」模型,就如同 Turbo 的名字一樣,這渦輪加速真的猛,我實測 14 多分鐘的影片,不到 30 秒就轉換完成,而且還是字幕檔。
圖片來源:Hugging Face
OpenAI 超快語音轉文字 Whisper large-v3-turbo 模型正式亮相
OpenAI 最新推出的 large-v3-turbo 模型,就跟一直以來作法一樣,延續模型精簡化的,跟原本的 large-v3 相比,體積更小速度更快,但仍能擁有跟較大模型相同的效能水準。
更精確點說,large-v3-turbo 有 809M 的參數,large-v3 則是 1550M 參數,明顯少很多,不過跟 medium 模型的 769M 稍微大一些,而且只需要 6GB VRAM 就能運行,OpenAI 也宣稱 large-v3-turbo 速度是 large 的 8 倍:
在 Github 網站上,也有分享各語言的測試數據,紅色是 turbo,可以注意到 Common Voice 15 語料庫測試的排名中,Mandarin(TW)部分排名很前面,僅落後 large-v3 一點。FLEURS 也一樣:
turbo 的錯誤率大約在 large-v3 和 large-v2、medium 之間,但速度部分僅輸 tiny 模型,由此可見有多麼強。OpenAI 也稱這是效能和速度二全奇美的選擇:
目前 large-v3-turbo 已經可以使用,也有在 Hugging Face 上釋出,有需要的人可以下載實測看看。
Whisper large-v3-turbo 實測速度
我使用阿達最新 YouTube 影片「PHILIPS小飛筆 AI 筆型錄音筆:錄音轉錄文字終身免費!即時轉寫、即時翻譯與總結重點一筆掌握」進行測試,這部影片長達 14:40,我用 large-v3-turbo 來轉錄,花不到 30 秒就完成,快到讓我覺得不可思議,感覺就像是按下開始正準備泡咖啡來喝,就已經完成了。
10:03:12 開始,10:03:39 就完成:
而且是字幕檔:
再來我改用 large-v3 模型,花了快 3 分鐘才完成,開始時間為 14:33:24,完成時間為:14:36:04:
至於準確度,確實 large-v3 錯誤率更低,像這部開頭阿達有講「這會為你帶來滿滿的好運氣」,也就是下圖第四個,這句 large-v3 有辨識出來,large-v3-turbo 就沒有:
所以如果你很要求準確度,large-v3 依舊是首選,但如果錯一點或沒辨識到沒差,那用 large-v3-turbo 會為你省下大把時間。
Whisper large-v3-turbo 有線上免費工具嗎?
有的,在 Hugging Face 上已經有人分享,不過我測試現在似乎有點問題,我用同一部影片,獲得的文字檔會出現亂碼,而且是簡體中文,YouTube 目前也無法用,不確定之後會不會修復,有需要的人可以試試看: