先前 Google NotebookLM 宣布加入文件轉成 Podcast 的功能,相信聽過的人都非常驚艷,聽起來真的很讚,不僅自然,內容部分也精準,只不過這功能目前僅支援英文,即使是上傳中文文件,還是會轉成英文的 Podcast。
而這篇就要推薦另一個替代工具「PDF to Audio」,可將 PDF 文件轉成 Podcast,支援多國語言,其中就包括中文,意味著可以生成中文 Podcast,而且效果還不錯,文末也會分享我測試的音檔給大家參考,包括 NotebookLM 版本。
另外這工具是架設在 Hugging Face 上,也有在 GitHb 分享專案,可自行於本地部屬。
PDF to Audio 使用教學,如何把 PDF 轉成 Podcast
PDF to Audio 的使用方式很簡單,點擊上方連結進到工具頁面後,上傳你的 PDF 文件,並填入 OpenAI API,選擇配音聲音,這樣就能開始生成了。
PDF 生成 Podcast 對話文字和配音,都是透過 OpenAI 模型,所以需要 API Key。
模型部分有多種選擇,幾乎 OpenAI 有提供的都有,就看你要用哪一個,建議用 gpt-4o-mini,不僅價格非常便宜,生成品質也還不錯。配音有 TTS 和 TTS HD 二種模型,前者價格是後者一半,但 HD 版品質比較好。
這是我將一篇文章轉成 3 分多鐘 Podcast 的費用,不到 0.03 美金,連台幣 1 元都不到。但要記得我使用的是 gpt-4o-mini,如果你選 GPT-4、GPT-4o 之類,就會非常貴:
進到工具頁面後,Instruction Template 選擇你要轉換的語言,最下面 Podcast(Chinese)就是中文:
PDF 部分上傳你要轉的檔案,我使用的是 OpenAI 宣布本週正式推出「ChatGPT 進階語音模式」這篇文章,大約一千出頭字數。Text Generation Model 就選擇你要使用的模型,千萬別選 o1,o1 是針對推理開發的模型:
聲音模型,如果你想了解 OpenAI 各模型價格,可到 OpenAI Prcing 頁面查看:
聲音部分就是 TTS 提供的 6 個,這工具不提供試聽,但可以到 OpenAI 官網試聽,把網頁滑到下方 video option 區塊就能找到:
Spkeaker 1 和 Speaker 2 記得設定不一樣的聲音,這樣才有對話感覺:
右邊的 Prompt 都已經設定好,你也能自行修改成想要的,或是轉換成繁體中文,修改好後按上方 Generate Audio 就會開始生成。生成過程會在網頁下方:
轉換速度還蠻快的,我這份文件只花不到一分鐘,接著就能播放試聽,Transcript 也會顯示對話內容。按右上角下載圖示,就能將 MP3 檔下載下來:
這是我用 PDF to Audio 生成的 Podcast 音檔:
這一個則是用 Google NotebookLM 轉換的 Podcast,時間很長,達到 6 分多鐘,幾乎是 PDF to Audio 一倍。不過目前只支援英文: