在影片生成服務 Sora 有點呈現雷聲大,但後續雨點卻久久下不到一般人身上的方式 – 很多躍躍欲試的人根本無從試用,也很難讓人驗證到底這些樣本內容是否真實。這幾天,OpenAI 則是以類似的策略宣告了他們僅需 15 秒語音樣本即可複製生成出合成語音的 Voice Engine 的存在。繼續閱讀 15 秒就能複製聲音,OpenAI Voice Engine 來了報導內文。
▲圖片來源:OpenAI
15 秒就能複製聲音,OpenAI Voice Engine 來了
由於「電影裡面都有演」的各種 AI 出錯的科技情節。總覺得近年來只要有品牌在這些領域站到了領先地位,就會漸漸演變成有點類似於當初 Google 發展 AI 技術到了一個程度,就開始讓人覺得好像有點在賣關子或者是藏招(以避免核心業務受到威脅)的狀態 – 很多技術都是秀一秀就收著,不開放一般人使用。
妙的是,也才剛剛在一兩年前透過「生成式 AI」與微軟一起刺激 Google 到跳起舞來的 OpenAI。最近不僅在影片生成服務 Sora 的發展方面呈現雷聲大,後續雨點卻久久下不到一般人身上 – 讓很多躍躍欲試的人根本無從試用,也很難讓人驗證到底這些樣本內容是否真實。
這幾天,OpenAI 則是以類似的策略宣告了他們僅需 15 秒語音樣本即可複製生成出合成語音的 Voice Engine 的存在。
https://twitter.com/Hody_MH11/status/1774298448235278453
在官方部落格中,OpenAI 再次火力展示了他們的語音複製技術 Voice Engine 的能耐(上面是有人在社群分享的片段,要聽範例可以到官網看)。裡面有可以更深度協助無法閱讀等身障者得以跨越障礙進行語言互動範例,包括語音閱讀、翻譯甚至是搭配 GPT-4 進行即時回應乃至於協助諮詢的相關應用。
更帶來與先前打出只需 15 分鐘就能「學會你聲音」的 iOS 功能所希望能對應,為罹患肌萎縮性脊髓側索硬化症(ALS)或其他可能會逐漸侵蝕說話能力的疾病所打造的「Personal Voice」類似。就是可以透過相對簡單的樣本語音,就能協助這些人士保留自己聲音的功能 – 有點像是語音版的 Apple Persona。然後 15 秒 vs 15 分,總覺得也是蠻針對的 XD。
在 OpenAI 所展示的頁面中,我們可以看到很多都還算是相當自然的 OpenAI Voice Engine「語音生成」範例 – 雖然所謂的語音複製的中文版本,感覺聽起來口吻好像不太自然(就很像外國人在念中文)。但若真的是以上面所提供的 15~16 秒語音就能達到這樣的程度,也的確是十分令人驚艷的成果。
OpenAI 分享他們約莫是在 2022 年便開始著手進行 Voice Engine 語音引擎的開發工作。並且早早的就將初期成果運用在了自己的服務中 – 初步用在哪應該很好猜吧?就是他們的文字轉語音 API 以及 ChatGPT Voice 與 Read Aloud 等語音相關功能。只是很顯然,隨著 OpenAI 先前一鳴驚人快速發展的態勢,在引起各方的關注而對各種發展都越來越追求所謂「負責任」態度的發展下。
即便這次的 OpenAI Voice Engine 雖然就官網的火力展示以及「僅需 15 秒語音」就能複製進行 AI 語音合成的特點,都讓人很想要馬上試用。不過像是同樣都以 Demo 一鳴驚人的 Sora 影片生成服務那樣,他們目前初步都只有進行小範圍的限定測試。針對大規模廣泛的推送,則是還需要在彙整目前的測試結果再決定如何推出。
▲圖片來源:Apple
有意思的是,相對於比較傾向於要透過好萊塢大咖來證明 Sora 的專業能耐(越來越覺得 Elon Musk 發文說 2024 就會有 AI 電影上映的「預測」好像越來越有可能了)。OpenAI 在這次的範例中,其實已經可以看到我們先前介紹過,能夠「兩分自拍、三步驟」產生長相與聲音都跟自己相似的 AI 主播的服務「HeyGen」出現在範例之中。
才發現,原來 OpenAI Voice Engine 離我們這麼近!
但在 HeyGen 的使用流程中可以發現,他們所運用的 OpenAI Voice Engine 很可能還是有所限制的版本 – 畢竟語音學習的時間跟限制相對更高。透過該服務的驗證機制,則是也可以感受到 OpenAI 在本次發表中所提到的安全性的相關規範也的確存在。
.Phasing out voice based authentication as a security measure for accessing bank accounts and other sensitive information(逐步淘汰基於語音的身份驗證作為存取銀行帳戶和其他敏感資訊的安全措施)
.Exploring policies to protect the use of individuals’ voices in AI(探索保護人工智慧中個人聲音使用的政策)
.Educating the public in understanding the capabilities and limitations of AI technologies, including the possibility of deceptive AI content(教育大眾了解人工智慧技術的能力和局限性,包括欺騙性人工智慧內容的可能性)
.Accelerating the development and adoption of techniques for tracking the origin of audiovisual content, so it’s always clear when you’re interacting with a real person or with an AI
(加速開發和採用追蹤視聽內容來源的技術,讓您在與真人或人工智慧互動時始終清晰可見)
OpenAI 不僅對於採用 Voice Engine 技術的合作夥伴都嚴格規範,禁止任何未經同意的使用情況。更表示他們的技術都有針對產生的語音加入可追蹤原始來源的水印。另一方面,做為這類技術的前沿品牌,他們也提出了前述四點須知。除了很基本的政策、教育乃至於可追蹤機制的開發等。
▲圖片來源:shy kids – “Air Head”
個人覺得最值得關注的,就是 OpenAI 認為接下來也應該要逐步淘汰以語音來進行身分認證的敏感服務的驗證機制 – 像是銀行帳戶等服務。這代表著,這類語音合成技術基本上已經到了即便是安全驗證技術等級較高的服務也很有可能難變真偽的境界。已經不是惡作劇或者是偽造通話的層面了!的確是需要提前做好相關防範!
也難怪對於這種各方都已經普遍發展的語音生成功能,OpenAI 會如此的小心翼翼謹慎以對了。