取距離近的樣本所對(duì)應(yīng)的詞標(biāo)注為該語(yǔ)音信號(hào)的發(fā)音。該方法對(duì)解決孤立詞識(shí)別是有效的,但對(duì)于大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別就無(wú)能為力。因此,進(jìn)入80年代后,研究思路發(fā)生了重大變化,從傳統(tǒng)的基于模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計(jì)模型(HMM)的技術(shù)思路。HMM的理論基礎(chǔ)在1970年前后就已經(jīng)由Baum等人建立起來(lái),隨后由CMU的Baker和IBM的Jelinek等人將其應(yīng)用到語(yǔ)音識(shí)別當(dāng)中。HMM模型假定一個(gè)音素含有3到5個(gè)狀態(tài),同一狀態(tài)的發(fā)音相對(duì)穩(wěn)定,不同狀態(tài)間是可以按照一定概率進(jìn)行跳轉(zhuǎn);某一狀態(tài)的特征分布可以用概率模型來(lái)描述,使用的模型是GMM。因此GMM-HMM框架中,HMM描述的是語(yǔ)音的短時(shí)平穩(wěn)的動(dòng)態(tài)性,GMM用來(lái)描述HMM每一狀態(tài)內(nèi)部的發(fā)音特征。基于GMM-HMM框架,研究者提出各種改進(jìn)方法,如結(jié)合上下文信息的動(dòng)態(tài)貝葉斯方法、區(qū)分性訓(xùn)練方法、自適應(yīng)訓(xùn)練方法、HMM/NN混合模型方法等。這些方法都對(duì)語(yǔ)音識(shí)別研究產(chǎn)生了深遠(yuǎn)影響,并為下一代語(yǔ)音識(shí)別技術(shù)的產(chǎn)生做好了準(zhǔn)備。自上世紀(jì)90年代語(yǔ)音識(shí)別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則和模型自適應(yīng)方法被提出以后,在很長(zhǎng)一段內(nèi)語(yǔ)音識(shí)別的發(fā)展比較緩慢,語(yǔ)音識(shí)別錯(cuò)誤率那條線一直沒(méi)有明顯下降。DNN-HMM時(shí)代2006年。它融合了語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)和電氣工程領(lǐng)域的知識(shí)和研究。山東語(yǔ)音識(shí)別設(shè)置
共振峰的位置、帶寬和幅度決定元音音色,改變聲道形狀可改變共振峰,改變音色。語(yǔ)音可分為濁音和清音,其中濁音是由聲帶振動(dòng)并激勵(lì)聲道而得到的語(yǔ)音,清音是由氣流高速?zèng)_過(guò)某處收縮的聲道所產(chǎn)生的語(yǔ)音。語(yǔ)音的產(chǎn)生過(guò)程可進(jìn)一步抽象成如圖1-2所示的激勵(lì)模型,包含激勵(lì)源和聲道部分。在激勵(lì)源部分,沖擊序列發(fā)生器以基音周期產(chǎn)生周期性信號(hào),經(jīng)過(guò)聲帶振動(dòng),相當(dāng)于經(jīng)過(guò)聲門波模型,肺部氣流大小相當(dāng)于振幅;隨機(jī)噪聲發(fā)生器產(chǎn)生非周期信號(hào)。聲道模型模擬口腔、鼻腔等聲道qi官,后產(chǎn)生語(yǔ)音信號(hào)。我們要發(fā)濁音時(shí),聲帶振動(dòng)形成準(zhǔn)周期的沖擊序列。發(fā)清音時(shí),聲帶松弛,相當(dāng)于發(fā)出一個(gè)隨機(jī)噪聲。圖1-2產(chǎn)生語(yǔ)音的激勵(lì)模型,人耳是聲音的感知qi官,分為外耳、中耳和內(nèi)耳三部分。外耳的作用包括聲源的定位和聲音的放大。外耳包含耳翼和外耳道,耳翼的作用是保護(hù)耳孔,并具有定向作用。外耳道同其他管道一樣也有共振頻率,大約是3400Hz。鼓膜位于外耳道內(nèi)端,聲音的振動(dòng)通過(guò)鼓膜傳到內(nèi)耳。中耳由三塊聽小骨組成,作用包括放大聲壓和保護(hù)內(nèi)耳。中耳通過(guò)咽鼓管與鼻腔相通,其作用是調(diào)節(jié)中耳壓力。內(nèi)耳的耳蝸實(shí)現(xiàn)聲振動(dòng)到神經(jīng)沖動(dòng)的轉(zhuǎn)換,并傳遞到大腦。深圳自主可控語(yǔ)音識(shí)別內(nèi)容一個(gè)眾所周知的應(yīng)用是自動(dòng)語(yǔ)音識(shí)別,以應(yīng)對(duì)不同的說(shuō)話速度。
亞馬遜的Echo音箱剛開始推出的兩三年,國(guó)內(nèi)的智能音箱市場(chǎng)還不溫不火,不為消費(fèi)者所接受,因此銷量非常有限。但自2017年以來(lái),智能家居逐漸普及,音箱市場(chǎng)開始火熱,為搶占語(yǔ)音入口,阿里巴巴、百度、小米、華為等大公司紛紛推出了各自的智能音箱。據(jù)Canalys報(bào)告,2019年第1季度中國(guó)市場(chǎng)智能音箱出貨量全球占比51%,超過(guò)美國(guó),成為全球*大的智能音箱市場(chǎng)。據(jù)奧維云網(wǎng)(AVC)數(shù)據(jù)顯示,2019年上半年中國(guó)智能音箱市場(chǎng)銷量為1556萬(wàn)臺(tái),同比增長(zhǎng)233%。隨著語(yǔ)音市場(chǎng)的擴(kuò)大,國(guó)內(nèi)涌現(xiàn)出一批具有強(qiáng)大競(jìng)爭(zhēng)力的語(yǔ)音公司和研究團(tuán)隊(duì),包括云知聲、思必馳、出門問(wèn)問(wèn)、聲智科技、北科瑞聲、天聰智能等。他們推出的語(yǔ)音產(chǎn)品和解決方案主要針對(duì)特定場(chǎng)景,如車載導(dǎo)航、智能家居、醫(yī)院的病歷輸入、智能客服、會(huì)議系統(tǒng)、證券柜臺(tái)業(yè)務(wù)等,因?yàn)椴捎蒙疃榷ㄖ?,識(shí)別效果和產(chǎn)品體驗(yàn)更佳。在市場(chǎng)上獲得了不錯(cuò)的反響。針對(duì)智能硬件的離線識(shí)別,云知聲和思必馳等公司還研發(fā)出專門的語(yǔ)音芯片,進(jìn)一步降低功耗,提高產(chǎn)品的性價(jià)比。在國(guó)內(nèi)語(yǔ)音應(yīng)用突飛猛進(jìn)的同時(shí),各大公司和研究團(tuán)隊(duì)紛紛在國(guó)際學(xué)術(shù)會(huì)議和期刊上發(fā)表研究成果。2015年,張仕良等人提出了前饋型序列記憶網(wǎng)絡(luò)。
即識(shí)別準(zhǔn)確率為,相較于2013年的準(zhǔn)確率提升了接近20個(gè)百分點(diǎn)。這種水平的準(zhǔn)確率已經(jīng)接近正常人類。2016年10月18日,微軟語(yǔ)音團(tuán)隊(duì)在Switchboard語(yǔ)音識(shí)別測(cè)試中打破了自己的好成績(jī),將詞錯(cuò)誤率降低至。次年,微軟語(yǔ)音團(tuán)隊(duì)研究人員通過(guò)改進(jìn)語(yǔ)音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型和語(yǔ)言模型,在之前的基礎(chǔ)上引入了CNN-BLSTM(ConvolutionalNeuralNetworkCombinedwithBidirectionalLongShort-TermMemory,帶有雙向LSTM的卷積神經(jīng)網(wǎng)絡(luò))模型,用于提升語(yǔ)音建模的效果。2017年8月20日,微軟語(yǔ)音團(tuán)隊(duì)再次將這一紀(jì)錄刷新,在Switchboard測(cè)試中將詞錯(cuò)誤率從,即識(shí)別準(zhǔn)確率達(dá)到,與谷歌一起成為了行業(yè)。另外,亞馬遜(Amazon)公司在語(yǔ)音行業(yè)可謂后發(fā)制人,其在2014年底正式推出了Echo智能音箱,并通過(guò)該音箱搭載的Alexa語(yǔ)音助理,為使用者提供種種應(yīng)用服務(wù)。Echo智能音箱一經(jīng)推出,在消費(fèi)市場(chǎng)上取得了巨大的成功。如今已成為美國(guó)使用廣的智能家居產(chǎn)品,至今累計(jì)銷量已超過(guò)2000萬(wàn)臺(tái)。投資機(jī)構(gòu)摩根士丹利分析師稱智能音箱是繼iPad之后"成功的消費(fèi)電子產(chǎn)品"。國(guó)內(nèi)語(yǔ)音識(shí)別現(xiàn)狀國(guó)內(nèi)早的語(yǔ)音識(shí)別研究開始于1958年,中國(guó)科學(xué)院聲學(xué)所研究出一種電子管電路,該電子管可以識(shí)別10個(gè)元音。1973年。對(duì)于強(qiáng)噪聲、超遠(yuǎn)場(chǎng)、強(qiáng)干擾、多語(yǔ)種、大詞匯等場(chǎng)景下的語(yǔ)音識(shí)別還需要很大的提升。
中國(guó)科學(xué)院聲學(xué)所成為國(guó)內(nèi)shou個(gè)開始研究計(jì)算機(jī)語(yǔ)音識(shí)別的機(jī)構(gòu)。受限于當(dāng)時(shí)的研究條件,我國(guó)的語(yǔ)音識(shí)別研究在這個(gè)階段一直進(jìn)展緩慢。放開以后,隨著計(jì)算機(jī)應(yīng)用技術(shù)和信號(hào)處理技術(shù)在我國(guó)的普及,越來(lái)越多的國(guó)內(nèi)單位和機(jī)構(gòu)具備了語(yǔ)音研究的成熟條件。而就在此時(shí),外國(guó)的語(yǔ)音識(shí)別研究取得了較大的突破性進(jìn)展,語(yǔ)音識(shí)別成為科技浪潮的前沿,得到了迅猛的發(fā)展,這推動(dòng)了包括中科院聲學(xué)所、中科院自動(dòng)化所、清華大學(xué)、中國(guó)科技大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、西北工業(yè)大學(xué)、廈門大學(xué)等許多國(guó)內(nèi)科研機(jī)構(gòu)和高等院校投身到語(yǔ)音識(shí)別的相關(guān)研究當(dāng)中。大多數(shù)的研究者將研究重點(diǎn)聚焦在語(yǔ)音識(shí)別基礎(chǔ)理論研究和模型、算法的研究改進(jìn)上。1986年3月,我國(guó)的"863"計(jì)劃正式啟動(dòng)。"863"計(jì)劃即國(guó)家高技術(shù)研究發(fā)展計(jì)劃,是我國(guó)的一項(xiàng)高科技發(fā)展計(jì)劃。作為計(jì)算機(jī)系統(tǒng)和智能科學(xué)領(lǐng)域的一個(gè)重要分支。語(yǔ)音識(shí)別在該計(jì)劃中被列為一個(gè)專項(xiàng)研究課題。隨后,我國(guó)展開了系統(tǒng)性的針對(duì)語(yǔ)音識(shí)別技術(shù)的研究。因此,對(duì)于我國(guó)國(guó)內(nèi)的語(yǔ)音識(shí)別行業(yè)來(lái)說(shuō),"863"計(jì)劃是一個(gè)里程碑,它標(biāo)志著我國(guó)的語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)嶄新的發(fā)展階段。但是由于研究起步晚、基礎(chǔ)薄弱、硬件條件和計(jì)算能力有限。主流語(yǔ)音識(shí)別框架還是由 3 個(gè)部分組成:聲學(xué)模型、語(yǔ)言模型和解碼器,有些框架也包括前端處理和后處理。廣州移動(dòng)語(yǔ)音識(shí)別服務(wù)標(biāo)準(zhǔn)
遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別已經(jīng)隨著智能音箱的興起成為全球消費(fèi)電子領(lǐng)域應(yīng)用為成功的技術(shù)之一。山東語(yǔ)音識(shí)別設(shè)置
美國(guó)**部下屬的一個(gè)名為美國(guó)**高級(jí)研究計(jì)劃局(DefenseAdvancedResearchProjectsAgency,DARPA)的行政機(jī)構(gòu),在20世紀(jì)70年代介入語(yǔ)音領(lǐng)域,開始資助一項(xiàng)旨在支持語(yǔ)言理解系統(tǒng)的研究開發(fā)工作的10年戰(zhàn)略計(jì)劃。在該計(jì)劃推動(dòng)下,誕生了一系列不錯(cuò)的研究成果,如卡耐基梅隆大學(xué)推出了Harpy系統(tǒng),其能識(shí)別1000多個(gè)單詞且有不錯(cuò)的識(shí)別率。第二階段:統(tǒng)計(jì)模型(GMM-HMM)到了20世紀(jì)80年代,更多的研究人員開始從對(duì)孤立詞識(shí)別系統(tǒng)的研究轉(zhuǎn)向?qū)Υ笤~匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究,并且大量的連續(xù)語(yǔ)音識(shí)別算法應(yīng)運(yùn)而生,例如分層構(gòu)造(LevelBuilding)算法等。同時(shí),20世紀(jì)80年代的語(yǔ)音識(shí)別研究相較于20世紀(jì)70年代,另一個(gè)變化是基于統(tǒng)計(jì)模型的技術(shù)逐漸替代了基于模板匹配的技術(shù)。統(tǒng)計(jì)模型兩項(xiàng)很重要的成果是聲學(xué)模型和語(yǔ)言模型,語(yǔ)言模型以n元語(yǔ)言模型(n-gram),聲學(xué)模型以HMM。HMM的理論基礎(chǔ)在1970年前后由Baum等人建立,隨后由卡耐基梅隆大學(xué)(CMU)的Baker和IBM的Jelinek等人應(yīng)用到語(yǔ)音識(shí)別中。在20世紀(jì)80年代中期,Bell實(shí)驗(yàn)室的.Rabiner等人對(duì)HMM進(jìn)行了深入淺出的介紹。并出版了語(yǔ)音識(shí)別專著FundamentalsofSpeechRecognition,有力地推動(dòng)了HMM在語(yǔ)音識(shí)別中的應(yīng)用。山東語(yǔ)音識(shí)別設(shè)置