本篇文章594字,讀完約1分鐘

企業(yè)信息 【科技在線】

這項(xiàng)科學(xué)技術(shù)是北京時(shí)間3月28日的早間新聞,谷歌研究人員正在尋找機(jī)器合成聲音更自然的方法。 谷歌大腦和機(jī)器識(shí)別小組成員周二在博客上公布了如何使語(yǔ)音更具表現(xiàn)力。

周二早些時(shí)候,谷歌發(fā)布了從云拷貝到語(yǔ)音服務(wù)的測(cè)試版,提供了與谷歌助手一樣的語(yǔ)音合成服務(wù)。 雖然該服務(wù)使用的是deepmind的wavenet技術(shù),但該技術(shù)也可以用于生成非常自然的聲音。

谷歌此次發(fā)表的從復(fù)制到語(yǔ)音服務(wù)的相關(guān)研究方法,可以通過(guò)需要語(yǔ)音控制和語(yǔ)音計(jì)算的設(shè)備、APP、數(shù)字化服務(wù)帶來(lái)更自然的語(yǔ)音。

谷歌研究人員最近發(fā)表了兩篇論文,提出了新的發(fā)音方法,并介紹了如何模仿語(yǔ)音語(yǔ)調(diào)和語(yǔ)調(diào)。 這兩篇論文的技術(shù)都基于tacotron 2。 這是去年12月出現(xiàn)的人工智能系統(tǒng),利用神經(jīng)互聯(lián)網(wǎng)進(jìn)行訓(xùn)練,模仿人類的聲音。

過(guò)去的tacotron大部分都能模擬人類的聲音,但無(wú)法模仿語(yǔ)言中的聲調(diào)和自然語(yǔ)調(diào)。 tacotron的共同發(fā)明者王玉軒這次參加了論文研究。 通過(guò)將人類的語(yǔ)音片段嵌入計(jì)算機(jī)的語(yǔ)音風(fēng)格中,他們實(shí)現(xiàn)了對(duì)合成語(yǔ)音進(jìn)行重音等效果。

另一篇論文的研究是在沒(méi)有監(jiān)控訓(xùn)練的情況下識(shí)別語(yǔ)音模式,模仿某種語(yǔ)音風(fēng)格。

在同行業(yè)其他公司中,蘋果siri去年獲得了更具表現(xiàn)力的呼聲。 去年4月,亞馬遜alexa為語(yǔ)音APP開發(fā)者提供了ssml標(biāo)簽,為助手的語(yǔ)音添加了停頓、輕言、小小感嘆詞等更加豐富的表達(dá)方式。

標(biāo)題:“谷歌新研究:讓機(jī)器合成語(yǔ)音更加自然”

地址:http://m.kungfu-fish.com//xwdt/42905.html