Whisper Web 免費線上音檔、語音轉文字工具，提供多種模型

好用的線上 Whisper 語音轉文字工具

手邊有音檔想要轉成文字、想把自己的錄音變成文字嗎？Whisper Web 就是很不錯的選擇，架設在 HuggingFace 網站上，不僅完全免費使用，還提供多種 Whisper AI 模型選擇，讓你能依據內容，選擇適合的模型，使用也很簡單。

Whisper Web 一款線上語音轉文字的免費工具

Whisper Web 是一款線上工具，因此無需安裝任何東西，打開瀏覽器就能用。雖然是國外開發者架設在 Hugging Face，沒有中文介面，但使用很簡單，只需要三步驟：

不過因為是使用共享 CPU 或 GPU 緣故，選擇較大模型的話，轉換速度會比較慢，但較小模型轉換速度雖快，準確度就沒有大模型好，所以真的要精準又快速，安裝在本地還是首選。

點擊上方連結進到 Whisper Web 後，選擇你要匯入音檔的方式，可輸入網址、選擇檔案、以及錄音，我使用選擇檔案。URL 網址是音檔網址，不支援 YouTube 這種影片網址：

匯入之後，可以試聽看對不對，接著按右下角的設定齒輪圖示：

會跳出這選項，預設是只能轉換英文的模型「Whisper-tiny.en」和「Whisper-base.en」：

記得把 Multilingual 打勾，這就會切換成支援多語言的 Whisper 模型：如果你想要更大一點的 Whisper 模型，可把右邊的 Quantized 也打勾：

這樣就能選擇 Small 和 Medium 模型，右邊會提示容量，越大代表模型越大，但相對轉換速度更慢。以最大的 Medium 來說，轉換時間可能會比原本音檔時間還長，但如果是 base 或 tiny，時間會短非常多：

Language 選擇你音檔的語言，中文就選 Chinese：

一切都設定好後，按下方的 Transcribe Audio 來啟動：

首次使用會讀取一些必要檔案，這只會讀一次，很快就會跑完：

接著就會即時看到轉好文字的結果：

轉好之後，下方會有 TXT 和 JSON 二個檔案載點：

TXT 是純文字，沒有時間點和標點符號：

JSON 則有時間點：

下圖是 Medium（左）和 Base（右）轉好的差異，Base 有出現幻覺，一大段一直重複「剩下的」，Medium 就沒這問題，但轉換時間非常長：

另外比較可惜是，這工具沒有提供暫停功能，因此開始之後，就必須等它轉完才能下載轉好的文字。

這工具提供的 Whisper 模型都比較舊，上個月初 OpenAI 有推出一個新的 Turbo 模型，14 多分鐘影片不用 30 秒就完成，非常快，有興趣的人可以閱讀這篇介紹：OpenAI Whisper 更強語音轉文字模型