李宏毅NLP笔记
目錄
1.course overview
2.語音辨識
3.
4.
5.
6.
7.
8.
9.
10.
一、Course Overview
(1)概念
- 人造語言:程序語言,Python、c++
- 自然語言:用于人類互相溝通的語言,eg:中文、英文
(2)語音 audio
- 重要性:很多語言沒有具體的文字系統(tǒng),計算機只能通過語音進行理解
- 復(fù)雜性:16k sample points/s,256 possible values/points。因此聲音信號的可能性非常大,沒有一模一樣的聲音
(3)文字 text
核心任務(wù)(6種技術(shù))
應(yīng)用分別有這些應(yīng)用speech recognition(語音辨識)、Text-to-Speech Synthesis語音合成、speech separation(將一段多個speaker同時發(fā)出的聲音信號分離),voices conversion(類似變聲器)、Speaker Recognition(判斷聲音信號的speaker),Keyword Spotting(關(guān)鍵字辨識)、、text generation、機器翻譯,syntactic parsing(文法剖析)
其他技術(shù)
- Meta Learning:讓機器學(xué)習(xí)學(xué)習(xí)的算法。先讓模型在很多任務(wù)上進行學(xué)習(xí),學(xué)習(xí)目標(biāo)是找到學(xué)習(xí)方法,使得在新的任務(wù)上進行簡單的訓(xùn)練(更少的訓(xùn)練資料,更短的訓(xùn)練時間)就可以有很好的效果
- Learning from Unpaired Data
將圖像中的風(fēng)格遷移應(yīng)用到語音和文字中。將一種語音/文字視為一種風(fēng)格,學(xué)習(xí)輸入風(fēng)格和輸出風(fēng)格之間的映射關(guān)系
- Knowledge Graph
通過讓機器閱讀大量訓(xùn)練資料學(xué)習(xí)knowledge,讓后再講學(xué)到的knowledge應(yīng)用到其他任務(wù)模型中
- Adversarial Attack
(1)語音
判斷一段語音信號是不是經(jīng)過合成或變聲;
在語音中加入噪聲迷惑機器
(2)文字
- Explainable AI
二、語音辨識
任務(wù):語音信號->文本
輸出單位(token)的類別:
- Phoneme:聲音信號的基本單位,有點類似音標(biāo)。但是需要詞典(Lexcion音標(biāo)與詞匯的映射)輔助
- Grapheme:字母,文本的最小單位。優(yōu)點在于不需要Lexcion。對于英文來講,Grapheme的容量是26個英文字母+空格+標(biāo)點符號;對于中文,Grapheme是漢字集合,常用字大約在4000+。
- Word:詞匯。對于一些語言來講,詞匯的數(shù)量過大
- Morpheme:詞素。傳達含義的最小單位。(獲取可以通過老專家或統(tǒng)計)
- Bytes:字節(jié)。優(yōu)勢在于不依賴于語言,所有語言都可以表示成bytes,數(shù)量是256
總結(jié)
Grapheme簡單易上手,不需要老專家,容易獲得;Phoneme跟語音的關(guān)系更明確,在語音方面更簡單,但是需要更強大的模型將其映射到文字;
語音辨識與其他應(yīng)用的結(jié)合
輸入:聲音信號(長度為T,緯度為d)
通過一個長度為25ms的滑動窗口提取特征,將聲音信號轉(zhuǎn)化成d緯的特征向量(frame),使用不同的策略得到的緯度不同(上圖展示了三種策略)。每個窗口之間的間隔是10ms(窗口之間有重疊)意味著1s的聲音信號將轉(zhuǎn)化成100個特征向量(100*d) - 語音信號的特征提取過程
Waveform:25ms的聲音信號。聽起來相同的聲音,他們的聲音信號可能非常不同
DFT:離散傅里葉變換
spectrogram:頻譜圖。和聲音信號的關(guān)聯(lián)性非常明確,可以通過頻譜圖猜到聲音內(nèi)容
filter bank:濾波器組(專家設(shè)計)
DCT:離散余弦變換
filter bank output成為主流
訓(xùn)練數(shù)據(jù)量
對比圖像
模型使用趨勢
八、bert
總結(jié)
- 上一篇: 考研英语单词-近义词分类-Fifth D
- 下一篇: 有极性电容和无极性电容区别