国产一线99在线,亚洲av性色在线观看,日本在线一区二区,国产一级毛片在线视频

<tbody id="zkqd1"><em id="zkqd1"></em></tbody>
    <mark id="zkqd1"><abbr id="zkqd1"><small id="zkqd1"></small></abbr></mark>
    1. <dd id="zkqd1"><acronym id="zkqd1"></acronym></dd>

      <tbody id="zkqd1"></tbody>
        <legend id="zkqd1"></legend>
          <tr id="zkqd1"></tr>
        1. <pre id="zkqd1"></pre>
          DAV首頁
          數(shù)字音視工程網(wǎng)

          微信公眾號

          數(shù)字音視工程網(wǎng)

          手機DAV

          null
          null
          null
          卓華,
          招商,
          null
          null
          null
          快捷,
          null

          我的位置:

          share

          語音識別技術(shù)之自適應技術(shù)

          來源:網(wǎng)絡        編輯:ZZZ    2024-02-22 10:05:56     加入收藏    咨詢

          咨詢
          所在單位:*
          姓名:*
          手機:*
          職位:
          郵箱:*
          其他聯(lián)系方式:
          咨詢內(nèi)容:
          驗證碼:
          不能為空 驗證碼錯誤
          確定

            1. 語音識別技術(shù)中的自適應技術(shù)簡介

            語音識別中的自適應,即針對某一個說話人或者某一domain來優(yōu)化語音識別系統(tǒng)的識別性能,使得識別系統(tǒng)對他們的性能有一定的提升。語音識別的自適應技術(shù)的目的是為了減少訓練集和測試集說話人或者domain之間差異性造成的語音識別性能下降的影響。這種差異性主要包括語音學上的差異還有生理上發(fā)音習慣上不同導致的差異性等等。自適應技術(shù)主要被應用于語音識別技術(shù)相關(guān)的產(chǎn)品,還有針對VIP客戶的語音識別等。

            上述的差異性問題,它容易造成說話人或者domain無關(guān)的識別系統(tǒng)性能上不好,但是如果針對該說話人或者domain訓練一個相關(guān)的識別系統(tǒng),那么需要收集很多數(shù)據(jù),這個成本是很高的。而語音識別中的自適應技術(shù)作為一種折中,它的數(shù)據(jù)量較少,并且性能上也能達到較好的效果。

            語音識別中的自適應技術(shù)有很多,根據(jù)自適應的空間,可以分成兩類:特征空間自適應和模型空間自適應。對于特征空間自適應來說,它試圖將相關(guān)的特征通過特征轉(zhuǎn)換成無關(guān)的特征,從而能夠和無關(guān)的模型相匹配。而對于模型空間的自適應來說,它試圖將無關(guān)的模型轉(zhuǎn)換成相關(guān)的模型,從而能夠和相關(guān)的特征相匹配??偠灾?,這兩類算法目的是為了讓相關(guān)的特征與無關(guān)的模型相匹配。

            2. INTERPSEECH 2017 paper reading

            2.1 Paper 1

            第一篇文章的題目是Dynamic Layer Normalization for Adaptive Neural Acoustic Modeling in Speech Recognition,它來自蒙特利爾大學。這篇文章的主要思想是將layer normalization的scale和shift兩個參數(shù)由上下文無關(guān)的變成上下文相關(guān)的,從而根據(jù)上下文信息來獲得動態(tài)的scale和shift。這是一種模型空間的自適應。它的主要創(chuàng)新的地方主要是,它不需要自適應階段(自適應階段就是使用目標 domain的數(shù)據(jù)進行自適應,從而能夠?qū)W習到目標domain的知識),另外,它同樣不需要提供包含說話人信息的相關(guān)特征,例如i-vector等等。

            DLN對應的公式如上圖右邊所示,首先,取前一層的minibatch ( TT )大小的隱層矢量或者輸入矢量hl−1thtl−1進行summarization,從而獲得alal。然后,通過線性變換矩陣和偏置來動態(tài)地控制scale ( αlgαgl )和shift ( βlgβgl )。

            同時,在原來的CE訓練的基礎(chǔ)上,在目標函數(shù)上增加一個懲罰項(上圖的右下角LvarLvar),用于增加句子內(nèi)的variance,從而summarization出來的信息會更加具有區(qū)分性。

            這篇paper主要是在81小時的WSJ以及212小時的TED數(shù)據(jù)集上進行實驗,WSJ的訓練集包含283個說話人,TED的訓練集包含5076個說話人。

            首先,在WSJ數(shù)據(jù)集上對比LN和DLN之間的性能,性能主要包括開發(fā)集和測試集的FER和WER(FER表示幀錯誤率,WER表示詞錯誤率)??梢钥闯?,除了測試集WER外,DLN均優(yōu)于LN。文章分析,這是由于WSJ的說話人數(shù)目較少,導致句子間的差異性不明顯,同時WSJ數(shù)據(jù)集是在安靜環(huán)境下錄制的,句子都比較平穩(wěn),DLN不能夠起作用。

            在TED數(shù)據(jù)集上的結(jié)果如第二個表格所示,發(fā)現(xiàn)在四個性能參數(shù)下,DLN均優(yōu)于LN。文章對比WSJ和TED數(shù)據(jù),TED數(shù)據(jù)集能夠取得比較好的性能的原因是,TED數(shù)據(jù)集較WSJ speaker數(shù)目更多,句子數(shù)更多,variability更加明顯。通過這篇文章,我們可以發(fā)現(xiàn)這種動態(tài)的LN與句子的variability相關(guān)。并且總體上看來,DLN是要優(yōu)于LN。

            2.2 Paper 2

            第二篇文章的題目是Large-Scale Domain Adaptation via Teacher-Student Learning,它來自微軟。這篇文章的主要思想是通過teacher/student的結(jié)構(gòu)來進行domain adaptation。這種方法不需要目標 domain的帶標注的數(shù)據(jù)。但是,它需要和訓練集相同的并行數(shù)據(jù)。它的創(chuàng)新點和價值主要在于,這種方法可以使用非常多的無標注數(shù)據(jù),同時借用teacher network的輸出來進一步提升student模型的性能。

            將teacher/student 簡稱為T/S。T/S的訓練流圖如上圖右邊所示。Figure 1 中的左側(cè)為teacher network,右側(cè)為student network,它們的輸出后驗概率分別設(shè)為PTPT和PSPS。

            student network的訓練過程:首先,將teacher network復制一份作為student network的初始化。然后,利用student domain data和teacher domain data通過對應的網(wǎng)絡獲得相應的后驗概率PTPT和PSPS。最后,利用這兩個后驗概率計算error signal,進行back梯度反傳更新student network。

            本paper的實驗是在375小時的英文cortana數(shù)據(jù)上進行的。測試集根據(jù)不同的domain,有不同的測試集。

            針對干凈/帶噪,在Cortana測試集上進行實驗。首先,使用teacher network進行測試,發(fā)現(xiàn)在帶噪語音上測試性能(18.8%)要遠差于noise-free的語音(15.62%)。如果通過仿真的方式來訓練teacher network,發(fā)現(xiàn)noisy的測試性能(17.34%)有一定的提升,這個等價于在student network上使用hard label來訓練。第四行和第五行使用T/S 算法,在同樣數(shù)據(jù)量上,soft label (16.66%)要優(yōu)于hard label (17.34%)。如果將訓練student network的數(shù)據(jù)增加到3400小時,性能會有進一步的提升(16.11%)。

            對于成年人/小孩來說,實驗首先將375小時中的女性以及兒童數(shù)據(jù)去除,獲得adult male 模型。實驗發(fā)現(xiàn),小孩的識別性能很差,分別是39.05和34.16。與干凈/帶噪相同,在使用T/S算法后,能夠在性能上獲得進一步的提升,并且數(shù)據(jù)擴大對于性能是有優(yōu)勢的。

            2.3 Paper 3

            第三篇文章是來自香港科技大學和谷歌的文章。這篇文章主要的想法和創(chuàng)新點是將Factorized Hidden Layer (FHL)的自適應方法 應用于LSTM-RNN。

            對于FHL adaptation算法來說,它在說話人無關(guān)的網(wǎng)絡權(quán)重WW基礎(chǔ)上加上一個說話人相關(guān)的網(wǎng)絡權(quán)重,從而獲得說話人相關(guān)的網(wǎng)絡權(quán)重WsWs。根據(jù)公式(7),我們可以看到,這個SD transformation是根據(jù)一組矩陣基(B(1),B(2),...,B(i))(B(1),B(2),...,B(i))通過線性插值得到。同樣,對神經(jīng)網(wǎng)絡的偏置bb也可以進行相應的說話人相關(guān)變換。

            但是,在實際實驗中,由于矩陣基會帶來大量的參數(shù)引入,這些矩陣基都被限制為rank-1,因此公式(7)可以進行一些變換,如上圖右邊所示。由于矩陣基為rank-1,那它可以被表示成一個列向量γ(i)γ(i)和一個行向量ψ(i)Tψ(i)T相乘的形式。同時,插值矢量被表示成對角矩陣DsDs的形式。這樣便獲得三個矩陣ΓΓ、DsDs和ΨTΨT連乘的方式,方便模型訓練。

            本文還介紹了speaker-dependent scaling。它將LSTM記憶單元中的激活值進行speaker-dependent scale。通過公式帶入,發(fā)現(xiàn),只要對每一個說話人學習zszs即可以進行說話人相關(guān)的scaling。但是這種算法存在一個問題,zszs的維度與網(wǎng)絡的層寬相關(guān),參數(shù)量大。因此,一種subspace scaling的方法被提出,它通過一個固定維度的low-dimensional vector vsvs來控制zszs,vsvs的維度遠小于zszs,從而大大地減少了說話人相關(guān)的參數(shù)量。

          免責聲明:本文來源于網(wǎng)絡,本文僅代表作者個人觀點,本站不作任何保證和承諾,若有任何疑問,請與本文作者聯(lián)系或有侵權(quán)行為聯(lián)系本站刪除。(原創(chuàng)稿件未經(jīng)許可,不可轉(zhuǎn)載,轉(zhuǎn)載請注明來源)
          掃一掃關(guān)注數(shù)字音視工程網(wǎng)公眾號

          相關(guān)閱讀related

          評論comment

           
          驗證碼:
          您還能輸入500