雖然相較於 Google 翻譯的語音功能,Siri 的聲音其實已經很人性化,但 Siri 畢竟是智慧語音助理,會經常需要跟使用者對談,處理生活中的大小事,如果聽起來太過於機器人,會給人一種非常冷冰冰的感覺,因此在 iOS 11 中,Apple 就透過機器學習的能力,改良了 Siri 的聲音,讓她變得更加自然、更像人類,同時也提供幾個試聽內容,讓我們能快速了解到 iOS 9、iOS 10 與 iOS 11 Siri 的聲音演變。
iOS 11 正式版秋天就要開放更新,因此在這之前,Apple 也趕緊增進各方面的功能,幾天前於官方部落格發表一篇如何讓 Siri 智慧語音助理聲音變得更自然方法的長篇文章,其關鍵就是借助於機器學習。
除了要錄製好幾個小時的高品質音訊,將它切割與分區塊來建立回覆的聲音內容,開發者還需要面對聲調的問題,也就是我們講話時會根據不同對談內容,來改變每個字的語調。但這種處理過程會加重處理器資料,利用聲音直接串連起來的方法,對一支手機來說負荷太重,因此這時就需要用到機器學習,只要有足夠的訓練資料,它就能讓文字轉語音系統了解到,怎麼挑選一段聲音裡適合的部分進行配對,來創造出自然聲音的回覆。
在 iOS 11 中,蘋果工程師與新的女性英文配音員一同錄製長達 20 小時演說,並製作出 100 萬至 200 萬的聲音分割檔,拿來用在訓練深度學習系統。開發團隊也提到,測試主體也傾向於新版本,而不是 2015 年 iOS 9 的舊版本。
從這篇文章報告底部,已經可以聽到 iOS 11 Siri 回答生活上一些小事情的內容,Apple 也放上 iOS 9、iOS 10 讓我們能直接比對。很明顯可以聽出,iOS 11 Siri 的回答已經沒有那麼機器人了,這點真的不錯,只不過中文部分是否也有這樣的改變,這就不知道了: