語音合成:讓只會說中文的雅婷也能說英文

雅婷是怎麼學會說話的?

雅婷採用得是最先進的語音合成技術(Text-to-Speech)來合成聲音。而雅婷學習說話的過程,可以大致分為兩個階段。

在第一個階段中,我們會請雅婷背後的藏鏡人,按照給定的文本錄製雅婷的聲音,再對錄製好的聲音做清理(例如去除背景雜音或是唇齒音等)。這個階段雖然繁瑣,卻也是聲音定型的一大關鍵。

接下來第二階段,就是將處理過後的聲音,交給電腦來學習如何產生雅婷的聲音。值得一提的是,我們會先將輸入的文字轉換成發音的單元(以中文舉例的話,就是把中文字轉換成ㄅㄆㄇ這樣的發音單位),再透過電腦來學習怎麼完美地合成出雅婷的聲音。經過一番訓練以及調整之後,雅婷就正式學會如何說中文了。

既然都能說中文了,說英文又有什麼難的呢?

其實讓電腦學習怎麼說英文並不難,市面上也早已流傳了好多英文的語音合成模型了。但中文說得標準的同時,又要能流利地說英文,這絕對不是一件簡單的事。

就如前一段所提,如果要能讓電腦學會同時說中文與英文,我們就需要錄製中文與英文的資料來做訓練。但假如雅婷背後的藏鏡人不會說英文,又或是藏鏡人無法錄音的話該怎麼辦呢?

再來,就算我們搜集到資料後,發音單元的選用上也會是一個大問題。例如中文常用的ㄅㄆㄇ與英文常用的音標分屬於不同的系統,如果硬是將中文的發音對應到英文的音標上,可能會有中文說得不夠標準的問題。

雅婷語音合成的多語種技術

雅婷文字轉語音開發團隊針對這樣的情境,研發了特殊的通用發音單位以及特殊的模型架構,讓我們得以實現只要提供中文語音資料,就可以讓雅婷說英文的強大技術。

如此一來,針對想要客製化聲音的您,也只需要提供中文語音資料,就能聽到自己流利的說英文,是不是很神奇呢!

想在你的專案使用雅婷的多語種語音合成技術?歡迎聯絡銷售人員