HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    谷歌語(yǔ)音生成器(谷歌語(yǔ)音生成器app)

    發(fā)布時(shí)間:2023-04-13 21:40:14     稿源: 創(chuàng)意嶺    閱讀: 90        

    大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于谷歌語(yǔ)音生成器的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。

    開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    谷歌語(yǔ)音生成器(谷歌語(yǔ)音生成器app)

    一、谷歌服務(wù)框架具體包括哪些谷歌軟件?

    谷歌服務(wù)框架軟件具體包括:

    GoogleSearch(谷歌搜索)

    GoogleDocs(谷歌文檔)

    GoogleBooks(谷歌電子書(shū))

    GoogleVoice(谷歌語(yǔ)音)

    GoogleSMS(谷歌短信)

    GoogleSync(谷歌同步)

    GoogleMaps(谷歌地圖)

    GoogleStreetView(谷歌街景)

    GoogleLatitude(谷歌縱橫)

    GoogleReader(谷歌閱讀器)

    AndroidMarket(電子市場(chǎng))

    GoogleWallet(谷歌錢包)

    iGoogle(個(gè)性化谷歌)

    GoogleNews(谷歌新聞)

    GoogleCalendar(谷歌日歷)

    GoogleEarth(谷歌地球)

    GoogleTasks(谷歌日程)

    GoogleMapsNavigation(谷歌本地搜索)

    GoogleTranslate(谷歌翻譯)

    GoogleGoggles(谷歌護(hù)目鏡)

    GoogleSkyMap(谷歌星空)

    GoogleGroup(谷歌網(wǎng)上論壇)

    GoogleAnswer(谷歌問(wèn)答)

    GoogleShopper(谷歌購(gòu)物)

    擴(kuò)展資料:

    谷歌服務(wù)框架是基于GoogleAppEngine,Google在CampfireOne上介紹了一種簡(jiǎn)化創(chuàng)建、運(yùn)行和構(gòu)建伸縮性Web應(yīng)用的工具——GoogleAppEngine。

    簡(jiǎn)而言之,GoogleAppEngine允許本地使用Google基礎(chǔ)設(shè)施構(gòu)建Web應(yīng)用,待其完工之后再將其部署到Google基礎(chǔ)設(shè)施之上。

    1、非授權(quán)認(rèn)證:免費(fèi)使用Android操作系統(tǒng),但不能內(nèi)嵌GMS;

    2、部分授權(quán)認(rèn)證:內(nèi)嵌部分GMS服務(wù),但手機(jī)不能打上谷歌的商標(biāo);

    3、完全授權(quán)認(rèn)證:內(nèi)嵌所有的GMS服務(wù),也可以使用“withGoogle™”的谷歌商標(biāo);

    目前在市面上,只有少數(shù)的手機(jī)廠商通過(guò)了完全授權(quán)認(rèn)證。

    谷歌認(rèn)證并不是想象的那么容易,谷歌要根據(jù)廠商的實(shí)力和地區(qū)因素來(lái)考慮認(rèn)證的等級(jí)。

    對(duì)于廠商來(lái)說(shuō),GMS除了可以獲得更多的谷歌服務(wù)權(quán)限之外,還是拉開(kāi)品牌區(qū)隔度的有效手段。

    參考資料來(lái)源:百度百科-GoogleAppEngine

    參考資料來(lái)源:百度百科-谷歌移動(dòng)服務(wù)

    二、文字轉(zhuǎn)語(yǔ)音的手機(jī)app,有哪些?

    首先,在百度或者谷歌搜索標(biāo)貝悅讀,出現(xiàn)個(gè)這個(gè)。

    打開(kāi)鏈接,就出來(lái)一個(gè)這個(gè)。

    頁(yè)面感覺(jué)還是比較簡(jiǎn)單明了的。

    然后,我就把自己準(zhǔn)備好的一段文字復(fù)制上,再選擇適合我文字內(nèi)容的聲音,打個(gè)對(duì)勾點(diǎn)擊確認(rèn)就行了。

    這里有個(gè)好玩的事情,點(diǎn)擊箭頭按鈕,文字就變成了這個(gè)顏色,然后你就可以聽(tīng)了,如果你想試聽(tīng)一段文字,那可以點(diǎn)擊右上角的試聽(tīng)。

    就如果文字有多音的、數(shù)字的讀法,你也可以進(jìn)行修改。

    當(dāng)然,它還有一個(gè)多角色合成的窗口,你可以選擇不同的文字匹配不同的聲音,這個(gè)就比較適合對(duì)話的那種文案了。(不同的聲音會(huì)有不同的顏色,哈哈,這個(gè)也是可愛(ài)的一匹?。?/p>

    最后,聽(tīng)完覺(jué)得聲音沒(méi)有問(wèn)題,就點(diǎn)擊右下角下載,然后彈出來(lái)一個(gè)窗口,可以修改備注標(biāo)題啥的,反正確定就行了。

    (生成速度,秒來(lái)形容吧!哈哈哈,也是比較快的那種吧?。?/p>

    然后你就可以用生成的語(yǔ)音做視頻或者放在公眾號(hào)文章就ok了!

    因?yàn)槭墙o大家介紹這個(gè),不夠詳細(xì)的話,我就把之前生成的視頻發(fā)出來(lái)大家聽(tīng)下吧!我個(gè)人感覺(jué),語(yǔ)感還是不錯(cuò)的,音色也比較好,里面也有幾十個(gè)聲音,還算全,不同類型的稿件都能覆蓋倒是。

    在這里嘗試一下吧!https://yuedu.data-baker.com/index.html?source=zhihu02

    優(yōu)質(zhì)朗讀員

    它最大的特點(diǎn)是里面的優(yōu)質(zhì)朗讀員很多,能模仿葛優(yōu)葛大爺、蠟筆小新的聲音來(lái)朗讀(或者說(shuō)配音),這個(gè)可以說(shuō)是很值錢的聲音了,然而可以免費(fèi)用!另外還有彬哥這種適用于讀新聞的朗讀員,燕燕這種適合做廣告配音的女聲朗讀員。

    上面都是普通話,還有非普通話的:湖南話、河南話、粵語(yǔ)、陜西話、東北話、四川話等各地方言、英文朗讀員,可以滿足很多個(gè)性場(chǎng)景的需求。目前想到的,做視頻配音、自媒體FM、教育教學(xué)、廣告制作、公文通知都沒(méi)有問(wèn)題。

    多種導(dǎo)入文字的方式

    小程序支持拍圖取字、微信朗讀、粘貼文字這三種導(dǎo)入文字的方式。其中我個(gè)人覺(jué)得最值錢的就是拍圖取字的導(dǎo)入方式,這個(gè)里面應(yīng)用的OCR技術(shù)據(jù)我所知是要收費(fèi)的,然而小程序能免費(fèi)用,省下了不少打字的煩惱,不過(guò)我試用了一下,發(fā)現(xiàn)里面是不能拍手寫(xiě)文字的,暫時(shí)只能識(shí)別印刷體,期待以后有更大的進(jìn)步。

    制作的音頻可以保存成朗讀集

    市面上很多文字轉(zhuǎn)語(yǔ)音工具都是用完即走,但訊飛快讀里面有個(gè)朗讀集的功能,可以免費(fèi)幫你保存之前制作過(guò)的音頻,不過(guò)吧,這東西就像云盤,容量總是有限的,所以你想要珍藏的音頻最好還是下載成MP3保存?;蛘呒皶r(shí)刪掉一些不想要的。

    親,很簡(jiǎn)單的有很多哦!就讓小虎哥哥給你推薦一個(gè)方法吧!搜狗輸入法里面有一個(gè)麥克風(fēng)的按鈕,長(zhǎng)按就可以說(shuō)話了,并且會(huì)變成文字輸入到對(duì)話框哦!如果你需要輸入很多的話,建議使用備忘錄中輸入完之后修改后再發(fā)出去哦!其實(shí)像百度、訊飛、小米等很多輸入法都支持這個(gè)功能哦!

    廢話不多說(shuō),直接上干貨!

    很多人喜歡利用碎片時(shí)間學(xué)習(xí),或者希望解放眼睛,利用耳朵來(lái)提高效率。所以才有文字轉(zhuǎn)語(yǔ)音功能的需求,雖然題主是想要APP,但是咱們重點(diǎn)在解決問(wèn)題,所以下面APP和小程序都會(huì)介紹。

    1.微軟聽(tīng)聽(tīng)文檔

    這個(gè)小程序是微軟旗下產(chǎn)品,微軟的技術(shù)大家懂的,非常棒,很安心。

    找到方式:微信-發(fā)現(xiàn)-小程序,搜索“微軟聽(tīng)聽(tīng)文檔”即可找到。

    它最棒的地方在于不光能轉(zhuǎn)化文檔,還能把喜歡的公眾號(hào)文章轉(zhuǎn)化為語(yǔ)音。

    2.訊飛快讀

    對(duì),沒(méi)辦法,遇到語(yǔ)音類的軟件是離不開(kāi)的科大訊飛的。這個(gè)也是一款小程序,不過(guò)PC端有網(wǎng)頁(yè)版,地址是:https://www.ffkuaidu.com/

    文字轉(zhuǎn)化過(guò)來(lái)的人聲非常逼真,幾乎可以 以假亂真,提供MP3下載。

    3.文字轉(zhuǎn)語(yǔ)音助手

    這是一款非常有用的APP,提供文字轉(zhuǎn)語(yǔ)音功能??梢悦赓M(fèi)試用。

    如果有一定的編程基礎(chǔ),其實(shí)可以去訊飛開(kāi)放平臺(tái)、百度開(kāi)放平臺(tái),有免費(fèi)包可領(lǐng)。

    看到樓上有大兄弟提問(wèn):有沒(méi)有很人性很良心的文字轉(zhuǎn)語(yǔ)音app?

    我可以告訴你是有的。找找科大訊飛出品的這款小程序: 訊飛快讀

    樓上也有大兄弟說(shuō)訊飛的配音app讓人挺鬧心,不過(guò)這一次,我們不會(huì)再讓你們失望了。

    免去各種注冊(cè)下載安裝的麻煩事

    因?yàn)橛嶏w快讀是一款 基于微信環(huán)境 的小程序,所以您第一次打開(kāi)的時(shí)候,只要輕輕點(diǎn)一下登陸確認(rèn)就行了,不用輸入賬號(hào)密碼,也不用另外下載軟件浪費(fèi)您的內(nèi)存。

    相當(dāng)于是褪下了很多繁瑣的外衣。

    不收費(fèi)!大部分功能都免費(fèi)開(kāi)放!

    目前大部分的配音app都是要收費(fèi)的,畢竟開(kāi)發(fā)成本挺高,但這個(gè)小程序里面的基本功能都是免費(fèi),包括 OCR拍圖取字、微信文本識(shí)別、各種優(yōu)質(zhì)的朗讀員 ,都不用收你的錢。開(kāi)發(fā)者一直在做虧本生意,為的就是用戶能有一個(gè)完整的體驗(yàn)。

    不過(guò),因?yàn)樗⑵良?jí)操作會(huì)把開(kāi)發(fā)者的錢包掏空,哪天項(xiàng)目倒閉了訊飛快讀就不能玩了,所以還是有一些次數(shù)限制的,大概就是限制100次這種程度。

    界面功能一目了然

    主界面3步就可以完成語(yǔ)音朗讀:

    1、導(dǎo)入文字:支持 拍圖朗讀、微信朗讀、粘貼文字 三種導(dǎo)入方式

    拍圖朗讀就是OCR文字識(shí)別,不過(guò)現(xiàn)在只能識(shí)別印刷體,手寫(xiě)的還需要開(kāi)發(fā)者多努力一把。微信朗讀可以直接搜索微信文章進(jìn)行朗讀。粘貼文字方便想從電腦往手機(jī)上導(dǎo)入文字的同學(xué)。目前一次識(shí)別的字?jǐn)?shù)限制在6000字,可以滿足多媒體音頻制作、絕大多數(shù)微信文章朗讀的場(chǎng)景。

    小程序支持多個(gè)不同特色的 朗讀員 ,其中葛大爺、蠟筆小新是明星朗讀員,中文朗讀員可以基本滿足多個(gè)不同場(chǎng)景的需要,另外還有粵語(yǔ)、河南話、湖南話、四川話等多地的方言朗讀員,兩位英文朗讀員,聲音都來(lái)自訊飛的音庫(kù),使用明星朗讀員只要說(shuō)明來(lái)源就不用擔(dān)心版權(quán)的問(wèn)題。

    另外您可以在小程序里面選擇背景音、調(diào)整語(yǔ)速和音量到你想要的最佳效果。

    3、點(diǎn)擊開(kāi)始朗讀合成音頻:

    點(diǎn)擊開(kāi)始朗讀之后,會(huì)進(jìn)入這個(gè)導(dǎo)出音頻的界面,在這里可以替換背景模板,有意思的是,可以在微信里面直接 發(fā)送給好友、生成收聽(tīng)圖、保存為MP3文件 (發(fā)送到郵箱)。

    收聽(tīng)圖是可以 自定義封面 的!所以你想做廣告宣傳,發(fā)一張有聲圖片讓大家掃碼進(jìn)去收聽(tīng);或者是發(fā)有意思的有聲新年祝福圖,小程序都能實(shí)現(xiàn)。

    朗讀集存儲(chǔ)過(guò)去的記錄

    樓上有大兄弟說(shuō)某些配音app不會(huì)幫你保存內(nèi)容,訊飛快讀也貼心地給用戶做了一個(gè)朗讀集的頁(yè)面,能保存最近制作過(guò)的幾百條朗讀內(nèi)容,每一條都支持修改和刪除。

    剪映里面有字幕轉(zhuǎn)語(yǔ)音的功能,是免費(fèi)的,你可以自己寫(xiě)文字,轉(zhuǎn)出語(yǔ)音后把音頻提取出來(lái)就可以了

    提問(wèn)者您好,對(duì)于你的問(wèn)題,我有一個(gè)簡(jiǎn)單的方法實(shí)現(xiàn),具體步驟如下:

    所需APP: 剪映 視頻音頻轉(zhuǎn)換器

    1.打開(kāi)剪映,點(diǎn)擊開(kāi)始創(chuàng)作,選擇一張圖片,添加到項(xiàng)目

    2.點(diǎn)擊下方工具欄中的文本,點(diǎn)擊新建文本,輸入你需要轉(zhuǎn)成語(yǔ)音的文字,點(diǎn)擊對(duì)勾

    3.點(diǎn)擊下方工具欄中的文本朗讀,即可生成語(yǔ)音,點(diǎn)擊導(dǎo)出會(huì)保存這段帶語(yǔ)音的視頻到你的相冊(cè)里

    4.打開(kāi)視頻音頻轉(zhuǎn)換器,點(diǎn)擊視頻轉(zhuǎn)音頻,選擇剛剛導(dǎo)出的視頻點(diǎn)擊下一步,再點(diǎn)擊右下角convert,制作完成

    這種方法方便快捷,只需手機(jī)就可以輕松完成,隨時(shí)隨地都可以制作音頻,而且剪映的語(yǔ)音生成語(yǔ)調(diào)比較自然,容易學(xué)習(xí)和使用,是非常好的旋轉(zhuǎn)

    下面的視頻教程是制作的詳細(xì)步驟

    希望我的回答可以幫助到您

    小佳敬上

    當(dāng)然有的,在電腦上我常用語(yǔ)音合成助手。手機(jī)上我用訊飛配音,訊飛配音和配音閣基本上是一個(gè)軟件,頁(yè)面打開(kāi)后和設(shè)置菜單都是一樣的,我常用來(lái)做廣告,里邊兒的聲音還是挺全的。推薦給你。你可以試一下

    謝謝悟空邀請(qǐng)

    下載“在線文字轉(zhuǎn)語(yǔ)音.免費(fèi)轉(zhuǎn)語(yǔ)音,百度廣播”。這個(gè)APP 相當(dāng)好用,我是一直在用這個(gè)。

    訊飛輸入法

    三、如何下載Google翻譯發(fā)音

    1

    用chrome瀏覽器(其他帶調(diào)試工具的瀏覽器也行)打開(kāi)谷歌翻譯,按F12打開(kāi)調(diào)試工具,點(diǎn)擊Network選項(xiàng)卡;

    2

    在谷歌翻譯中輸入要發(fā)聲的文字,點(diǎn)擊朗讀,這時(shí)調(diào)試工具左邊Name

    path一欄中會(huì)生成一個(gè)translate_tts的異步請(qǐng)求(最下面的一個(gè)為最新),點(diǎn)擊,右邊會(huì)顯示請(qǐng)求信息,在headers選項(xiàng)卡下面會(huì)有一個(gè)Request

    URL:,復(fù)制后面的地址,在地址欄中粘貼復(fù)制下來(lái)的地址,打開(kāi),這時(shí)就會(huì)播放你要翻譯的聲音,contrl+s保存,ok,搞定

    四、語(yǔ)音合成簡(jiǎn)介 Text-to-speech

    這篇博客的主要內(nèi)容是對(duì)語(yǔ)音合成 (text to speech)的背景知識(shí)進(jìn)行介紹。 希望可以讓讀者通俗易懂的了解語(yǔ)音合成的工作原理, 并對(duì)為了理解state-of-the-art text to speech 的算法做基礎(chǔ)。

    這個(gè)簡(jiǎn)介主要基于這篇論文 “Wavenet: a generative model for raw audio”的附錄介紹的。 論文鏈接如下: https://arxiv.org/pdf/1609.03499.pdf , 以及stanford CS224S的課程, 鏈接如下 http://web.stanford.edu/class/cs224s/lectures/224s.17.lec14.pdf

    語(yǔ)音合成是通過(guò)文字人工生成人類聲音, 也可以說(shuō)語(yǔ)音生成是給定一段文字去生成對(duì)應(yīng)的人類讀音。 這里聲音是一個(gè)連續(xù)的模擬的信號(hào)。而合成過(guò)程是通過(guò)計(jì)算機(jī), 數(shù)字信號(hào)去模擬。 這里就需要數(shù)字信號(hào)處理模擬信號(hào)信息,詳細(xì)內(nèi)容可參考 [1]。

    圖片1, 就是一個(gè)例子用來(lái)表示人類聲音的信號(hào)圖。 這里橫軸是時(shí)間, 縱軸是聲音幅度大小。聲音有三個(gè)重要的指標(biāo), 振幅(amplitude) , 周期(period) 和 頻率(frequency) 。 振幅指的是波的高低幅度,表示聲音的強(qiáng)弱,周期和頻率互為倒數(shù)的關(guān)系, 用來(lái)表示兩個(gè)波之間的時(shí)間長(zhǎng)度,或者每秒震動(dòng)的次數(shù)。  而聲音合成是根據(jù)聲波的特點(diǎn), 用數(shù)字的方式去生成類似人聲的頻率和振幅, 即音頻的數(shù)字化。了解了音頻的數(shù)字化,也就知道了我們要生成的目標(biāo)函數(shù)。

    音頻的數(shù)字化主要有三個(gè)步驟。

    取樣(sampling) :在音頻數(shù)字化的過(guò)程,采樣是指一個(gè)固定的頻率對(duì)音頻信號(hào)進(jìn)行采樣, 采樣的頻率越高, 對(duì)應(yīng)的音頻數(shù)據(jù)的保真度就越好。 當(dāng)然, 數(shù)據(jù)量越大,需要的內(nèi)存也就越大。 如果想完全無(wú)損采樣, 需要使用Nyquist sampling frequency, 就是原音頻的頻率2倍。

    量化 (quantization) : 采樣的信號(hào)都要進(jìn)行量化, 把信號(hào)的幅度變成有限的離散數(shù)值。比如從0 到 1, 只有 四個(gè)量化值可以用0, 0.25, 0.5, 0.75的話, 量化就是選擇最近的量化值來(lái)表示。

    編碼 (coding ):編碼就是把每個(gè)數(shù)值用二進(jìn)制的方式表示, 比如上面的例子, 就可以用2bit 二進(jìn)制表示, 00, 01, 10, 11。 這樣的數(shù)值用來(lái)保存在計(jì)算機(jī)上。

    采樣頻率和采樣量化級(jí)數(shù)是數(shù)字化聲音的兩個(gè)主要指標(biāo),直接影響聲音的效果。 對(duì)于語(yǔ)音合成也是同樣, 生成更高的采樣頻率和更多多的量化級(jí)數(shù)(比如16 bit), 會(huì)產(chǎn)生更真實(shí)的聲音。  通常有三個(gè)采樣頻率標(biāo)準(zhǔn)

    1. 44.1kHz 采樣, 用于高品質(zhì)CD 音樂(lè)

    2. 22.05kHz 采樣, 用于語(yǔ)音通話, 中品質(zhì)音樂(lè)

    3 . 11.025kHz 采樣, 用于低品質(zhì)聲音。

    而量化標(biāo)準(zhǔn)一般有8位字長(zhǎng)(256階)低品質(zhì)量化 和16位字長(zhǎng)(65536階)高品質(zhì)量化。

    還有一個(gè)重要參數(shù)就是通道(channel), 一次只采樣一個(gè)聲音波形為單通道, 一次采樣多個(gè)聲音波形就是多通道。

    所以在語(yǔ)音合成的時(shí)候,產(chǎn)生的數(shù)據(jù)量是 數(shù)據(jù)量=采樣頻率* 量化位數(shù)*聲道數(shù) , 單位是bit/s。 一般聲道數(shù)都假設(shè)為1.。 采樣率和量化位數(shù)都是語(yǔ)音合成里的重要指標(biāo),也就是設(shè)計(jì)好的神經(jīng)網(wǎng)絡(luò)1秒鐘必須生成的數(shù)據(jù)量 。

    文本分析就是把文字轉(zhuǎn)成類似音標(biāo)的東西。 比如下圖就是一個(gè)文本分析,用來(lái)分析 “PG&E will file schedules on April 20. ” 文本分析主要有四個(gè)步驟, 文字的規(guī)范化, 語(yǔ)音分析, 還有韻律分析。 下面一一道來(lái)。 

    文本分析首先是要確認(rèn)單詞和句子的結(jié)束。 空格會(huì)被用來(lái)當(dāng)做隔詞符. 句子的結(jié)束一般用標(biāo)點(diǎn)符號(hào)來(lái)確定, 比如問(wèn)號(hào)和感嘆號(hào) (??。? 但是句號(hào)有的時(shí)候要特別處理。 因?yàn)橛行﹩卧~的縮寫(xiě)也包含句號(hào), 比如 str. "My place on Main Str.  is around the corner". 這些特別情況一般都會(huì)采取規(guī)則(rule)的方式過(guò)濾掉。

    接下來(lái) 是把非文字信息變成對(duì)應(yīng)的文字, 比如句子中里有日期, 電話號(hào)碼, 或者其他阿拉伯?dāng)?shù)字和符號(hào)。 這里就舉個(gè)例子, 比如, I was born April 14. 就要變成, I was born April fourteen.  這個(gè)過(guò)程其實(shí)非常繁瑣,現(xiàn)實(shí)文字中充滿了 縮寫(xiě),比如CS,  拼寫(xiě)錯(cuò)誤, 網(wǎng)絡(luò)用語(yǔ), tmr --> tomorrow. 解決方式還是主要依靠rule based method, 建立各種各樣的判斷關(guān)系來(lái)轉(zhuǎn)變。

    語(yǔ)音分析就是把每個(gè)單詞中的發(fā)音單詞標(biāo)出來(lái), 比如Fig. 3 中的P, 就對(duì)應(yīng)p和iy, 作為發(fā)音。 這個(gè)時(shí)候也很容易發(fā)現(xiàn),發(fā)音的音標(biāo)和對(duì)應(yīng)的字母 不是一一對(duì)應(yīng)的關(guān)系,反而需要音標(biāo)去對(duì)齊 (allignment)。 這個(gè)對(duì)齊問(wèn)題很經(jīng)典, 可以用很多機(jī)器學(xué)習(xí)的方法去解決, 比如Expectation–maximization algorithm.

    韻律分析就是英語(yǔ)里的語(yǔ)音語(yǔ)調(diào), 漢語(yǔ)中的抑揚(yáng)頓挫。 我們還是以英語(yǔ)為例, 韻律分析主要包含了: 重音 (Accent),邊界 (boundaries),  音長(zhǎng) (duration),主頻率 (F0).

    重音(Accent) 就是指哪個(gè)音節(jié)發(fā)生重一點(diǎn)。 對(duì)于一個(gè)句子或者一個(gè)單詞都有重音。 單詞的重音一般都會(huì)標(biāo)出來(lái),英語(yǔ)語(yǔ)法里面有學(xué)過(guò), 比如banana 這個(gè)單詞, 第二個(gè)音節(jié)就是重音。 而對(duì)于句子而言,一樣有的單詞會(huì)重音,有的單詞會(huì)發(fā)輕音。 一般有新內(nèi)容的名詞, 動(dòng)詞, 或者形容詞會(huì)做重音處理。 比如下面的英語(yǔ)句子, surprise 就會(huì)被重音了, 而句子的重音點(diǎn)也會(huì)落到單詞的重音上, 第二個(gè)音節(jié)rised, 就被重音啦。 英語(yǔ)的重音規(guī)則是一套英語(yǔ)語(yǔ)法,讀者可以自行百度搜索。

    I’m a little sur prised to hear it cha racterized as up beat .

    邊界 (Boundaries) 就是用來(lái)判斷聲調(diào)的邊界的。 一般都是一個(gè)短語(yǔ)結(jié)束后,有個(gè)語(yǔ)調(diào)的邊界。 比如下面的句子, For language, 就有一個(gè)邊界, 而I 后面也是一個(gè)邊界.

    For language, I , the author of the blog, like Chinese.

    音長(zhǎng)(Duration) 就是每個(gè)音節(jié)的發(fā)聲長(zhǎng)度。 這個(gè)通俗易懂。 NLP 里可以假定每個(gè)音節(jié)單詞長(zhǎng)度相同都是 100ms, 或者根據(jù)英語(yǔ)語(yǔ)法, 動(dòng)詞, 形容詞之類的去確定。 也可以通過(guò)大量的數(shù)據(jù)集去尋找規(guī)律。

    主頻率 (F0 )就是聲音的主頻率。  應(yīng)該說(shuō)做傅里葉轉(zhuǎn)換后, 值 (magnitude) 最大的那個(gè)。 也是人耳聽(tīng)到聲音認(rèn)定的頻率。一個(gè)成年人的聲音主頻率在 100-300Hz 之間。 這個(gè)值可以用 線性回歸來(lái)預(yù)測(cè), 機(jī)器學(xué)習(xí)的方法預(yù)測(cè)也可以。一般會(huì)認(rèn)為,人的聲音頻率是連續(xù)變化的,而且一個(gè)短語(yǔ)說(shuō)完頻率是下降趨勢(shì)。

    文本分析就介紹完了,這個(gè)方向比較偏語(yǔ)言學(xué), 傳統(tǒng)上是語(yǔ)言學(xué)家的研究方向,但是隨著人工智能的興起,這些feature 已經(jīng)不用人為設(shè)計(jì)了,可以用端到端學(xué)習(xí)的方法來(lái)解決。 比如谷歌的文章 TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS 就解救了我們。

    https://arxiv.org/pdf/1703.10135.pdf

    這個(gè)部分就比較像我們算法工程師的工作內(nèi)容了。 在未來(lái)的博客里, 會(huì)詳細(xì)介紹如何用Wavenet 和WaveRNN 來(lái)實(shí)現(xiàn)這一步驟的。 今天這個(gè)博客就是簡(jiǎn)介一下算法。

    這里說(shuō)所謂的waveform synthesis 就是用這些 語(yǔ)言特征值(text features)去生成對(duì)應(yīng)的聲波,也就是生成前文所說(shuō)的采樣頻率 和 振幅大?。▽?duì)應(yīng)的數(shù)字信號(hào))。 這里面主要有兩個(gè)算法。

    串接合成(concatenative speech synthesis) : 這個(gè)方法呢, 就是把記錄下來(lái)的音節(jié)拼在一起來(lái)組成一句話,在通過(guò)調(diào)整語(yǔ)音語(yǔ)調(diào)讓它聽(tīng)起來(lái)自然些。 比較有名的有雙音節(jié)拼接(Diphone Synthesis) 和單音節(jié)拼接(Unit Selection Synthesis)。這個(gè)方法比較繁瑣, 需要對(duì)音節(jié)進(jìn)行對(duì)齊(alignment), 調(diào)整音節(jié)的長(zhǎng)短之類的。

    參數(shù)合成 (Parametric Synthesis) : 這個(gè)方法呢, 需要的內(nèi)存比較小,是通過(guò)統(tǒng)計(jì)的方法來(lái)生成對(duì)應(yīng)的聲音。 模型一般有隱馬爾科夫模型 (HMM),還有最近提出的神經(jīng)網(wǎng)絡(luò)算法Wavenet, WaveRNN. 

    對(duì)于隱馬爾科夫模型的算法, 一般都會(huì)生成梅爾頻率倒譜系數(shù) (MFCC),這個(gè)是聲音的特征值。 感興趣的可以參考這篇博客 去了解 MFCC。

    https://www.cnblogs.com/BaroC/p/4283380.html

    對(duì)于神經(jīng)網(wǎng)絡(luò)的算法來(lái)說(shuō), 一般都是生成256 個(gè) quantized values 基于softmax 的分類器, 對(duì)應(yīng) 聲音的 256 個(gè)量化值。 WaveRNN 和wavenet 就是用這種方法生成的。

    下面是我學(xué)習(xí)語(yǔ)音合成的一些資料, 其中stanford cs224s 是強(qiáng)力推薦的,但是這個(gè)講義講的邏輯不是很清楚, 要反復(fù)看才會(huì)懂。

    UCSB Digital Speech Processing Course 課程, 聲音信號(hào)處理的基礎(chǔ)。 建議讀一遍, 鏈接如下,  https://www.ece.ucsb.edu/Faculty/Rabiner/ece259/

    Stanford CS224S http://web.stanford.edu/class/cs224s/

    WaveRNN,  https://arxiv.org/pdf/1609.03499.pdf

    音頻的數(shù)字化, https://wenku.baidu.com/view/68fbf1a4f61fb7360b4c658b.html

    以上就是關(guān)于谷歌語(yǔ)音生成器相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    怎么樣才能進(jìn)入谷歌商店(怎么才能進(jìn)去谷歌商店)

    谷歌收徒(谷歌搜圖怎么用)

    深圳谷歌搜索代理(深圳谷歌搜索代理怎么樣)

    青海省快手網(wǎng)紅排行榜(青??焓志W(wǎng)紅排名第一是誰(shuí))

    互聯(lián)網(wǎng)營(yíng)銷師證書(shū)怎么報(bào)名(互聯(lián)網(wǎng)營(yíng)銷師證書(shū)怎么報(bào)名的)