手邊有音檔想要轉成文字、想把自己的錄音變成文字嗎?Whisper Web 就是很不錯的選擇,架設在 HuggingFace 網站上,不僅完全免費使用,還提供多種 Whisper AI 模型選擇,讓你能依據內容,選擇適合的模型,使用也很簡單。
Whisper Web 一款線上語音轉文字的免費工具
Whisper Web 是一款線上工具,因此無需安裝任何東西,打開瀏覽器就能用。雖然是國外開發者架設在 Hugging Face,沒有中文介面,但使用很簡單,只需要三步驟:
- 匯入音檔
- 指定模型
- 開始轉換
不過因為是使用共享 CPU 或 GPU 緣故,選擇較大模型的話,轉換速度會比較慢,但較小模型轉換速度雖快,準確度就沒有大模型好,所以真的要精準又快速,安裝在本地還是首選。
點擊上方連結進到 Whisper Web 後,選擇你要匯入音檔的方式,可輸入網址、選擇檔案、以及錄音,我使用選擇檔案。URL 網址是音檔網址,不支援 YouTube 這種影片網址:
匯入之後,可以試聽看對不對,接著按右下角的設定齒輪圖示:
會跳出這選項,預設是只能轉換英文的模型「Whisper-tiny.en」和「Whisper-base.en」:
記得把 Multilingual 打勾,這就會切換成支援多語言的 Whisper 模型:如果你想要更大一點的 Whisper 模型,可把右邊的 Quantized 也打勾:
這樣就能選擇 Small 和 Medium 模型,右邊會提示容量,越大代表模型越大,但相對轉換速度更慢。以最大的 Medium 來說,轉換時間可能會比原本音檔時間還長,但如果是 base 或 tiny,時間會短非常多:
Language 選擇你音檔的語言,中文就選 Chinese:
一切都設定好後,按下方的 Transcribe Audio 來啟動:
首次使用會讀取一些必要檔案,這只會讀一次,很快就會跑完:
接著就會即時看到轉好文字的結果:
轉好之後,下方會有 TXT 和 JSON 二個檔案載點:
TXT 是純文字,沒有時間點和標點符號:
JSON 則有時間點:
下圖是 Medium(左)和 Base(右)轉好的差異,Base 有出現幻覺,一大段一直重複「剩下的」,Medium 就沒這問題,但轉換時間非常長:
另外比較可惜是,這工具沒有提供暫停功能,因此開始之後,就必須等它轉完才能下載轉好的文字。
轉檔速度更快的選擇:Whisper large-v3-turbo
這工具提供的 Whisper 模型都比較舊,上個月初 OpenAI 有推出一個新的 Turbo 模型,14 多分鐘影片不用 30 秒就完成,非常快,有興趣的人可以閱讀這篇介紹:OpenAI Whisper 更強語音轉文字模型