由 Facebook 母公司 Meta 近日所端出版本,說真的在各種功能方面都確實與 Google 的版本有點太過類似 – 都是可以透過 PDF 檔案轉換處理成類似 Podcast 的雙人對談文稿,再透過語音轉文字的模型來生成類似 Podcast 的語音檔案供後續應用。繼續閱讀 Meta 也推可生成「類・Podcast」內容的 NotebookLlama,實用度怎樣這篇看報導內文。
▲圖片來源:Meta
Meta 也推可生成「類・Podcast」內容的 NotebookLlama,實用度怎樣這篇看
雖然從名稱與在 Github 的描述,都可以看出 Meta NotebookLlama 就是在致敬 Google NotebookLM 的模型 – 特別是描述就直接稱為「開源版 NotebookLM(NotebookLlama: An Open Source version of NotebookLM)」。
講起來,這個由 Facebook 母公司 Meta 近日所端出版本,說真的在各種功能方面都確實與 Google 的版本有點太過類似 – 都是可以透過 PDF 檔案轉換處理成類似 Podcast 的雙人對談文稿,再透過語音轉文字的模型來生成類似 Podcast 的語音檔案供後續應用。
也因為如此,大家應該會比較在意的點是在,在開源的差異之外 Meta NotebookLlama 實際表現如何。底下則是它初步被貼在網路上的實際對話與文本撰寫表現:
Wow! Meta dropped an open NotebookLM recipe: NotebookLlama 🔥
It uses L3.2 1B/ 3B for pre-processing the PDF, L3.1 70B for Transcript creation, L3.1 8B for re-writes and Parler TTS for Text to Speech ⚡
Step 1: Pre-process PDF: Use Llama-3.2-1B-Instruct to pre-process the PDF… pic.twitter.com/L7hb5GsMtl
— Vaibhav (VB) Srivastav (@reach_vb) October 27, 2024
好,聽完它的表現應該大部分人會覺得比起 Google NotebookLM,Meta 的版本似乎還有待加強 – 就,還是蠻像機器人聲,而且對話的打斷點也偏怪。
實際上官方也表示現在的版本主要受限於模型的表現所以不夠自然。但也拿出跟很多模型初期(或者是一直以來)發展時的類似說法,也就是它有機會透過後續的模型改變或改進獲得更好的進步。
現階段 NotebookLlama 的運作涉及了包括 PDF 等檔案轉成 TXT 檔案的程序。後續則是會在轉換為「類・Podcast」的版本後,再透過模型來進行更有戲劇張力或該說是表演風格的重新潤飾。最後則是被歸咎於導致目前的語音還不夠自然的文字轉語音部分 – 此步驟將會著重於對話感的部分。
當然,這一系列的模型基本上都會涉及 Llama 的大型語言模型(語音是 parler-tts/parler-tts-mini-v1 和 bark/suno)。個人也相當好奇,未來在更多實際使用的驗證下,是否能拿出比起 NotebookLM 的不同優勢。
引用來源:Github|經由:TechCrunch|