机器学习中的数据及其处理
目錄
數(shù)據(jù)及其處理
文本數(shù)據(jù)
詞干提取(stemming)和詞形還原(lemmatization)
N-gram模型
音頻數(shù)據(jù)
確定數(shù)據(jù)集規(guī)模
數(shù)據(jù)及其處理
樣本:sample,或輸入,input
預(yù)測:prediction,或輸出,output
目標(biāo):target,真實(shí)值
類別:class
標(biāo)簽:label
真值:ground-truth,或標(biāo)注,annotation
訓(xùn)練集:training set
測試集:test set
數(shù)據(jù)蒸餾:data distillation
分類編碼:categorical encoding
數(shù)據(jù)增強(qiáng):data augumentation
標(biāo)準(zhǔn)化:Standardization
將數(shù)據(jù)變換為均值為0,標(biāo)準(zhǔn)差為1的分布切記,并非一定是正態(tài)的
歸一化:Normalization
將一列數(shù)據(jù)變化到某個固定區(qū)間(范圍)中,通常,這個區(qū)間是[0, 1],廣義的講,可以是各種區(qū)間,比如映射到[0,1]一樣可以繼續(xù)映射到其他范圍,圖像中可能會映射到[0,255],其他情況可能映射到[-1,1];
批標(biāo)準(zhǔn)化:batch normalization
批再標(biāo)準(zhǔn)化:batch renormalization
數(shù)據(jù)預(yù)處理是一種數(shù)據(jù)挖掘技術(shù),包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換等多種方法。 ?
在數(shù)據(jù)挖掘之前使用數(shù)據(jù)預(yù)處理技術(shù)先對數(shù)據(jù)進(jìn)行一定的處理,將極大提高數(shù)據(jù)挖掘的質(zhì)量,降低實(shí)際數(shù)據(jù)挖掘所需的時間。
數(shù)據(jù)變換方法包括數(shù)據(jù)平滑、數(shù)據(jù)聚集、數(shù)據(jù)泛化、數(shù)據(jù)規(guī)范化等。
數(shù)據(jù)分析方法包括聚類分析、因子分析、相關(guān)分析、方差分析、回歸分析等。
缺失數(shù)據(jù)處理方法包括刪除含有缺失值的記錄、均值插補(bǔ)、同類均值插補(bǔ)等。
數(shù)據(jù)治理是指對于數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注到數(shù)據(jù)交付整個項目生命周期每個階段進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列管理措施。
數(shù)據(jù)分割是指把邏輯上是統(tǒng)一整體的數(shù)據(jù)分割成較小的、可以獨(dú)立管理的物理單元進(jìn)行存儲,以便于重構(gòu)、重組和恢復(fù),以提高創(chuàng)建索引和順序掃描的效率。
數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。
為了避免在數(shù)據(jù)傳輸過程中數(shù)據(jù)被竊取、被復(fù)制等,應(yīng)對數(shù)據(jù)傳輸過程進(jìn)行壓縮、加密等操作。 ?
數(shù)據(jù)一致性檢查是根據(jù)每個變量的合理取值范圍和相互關(guān)系,檢查數(shù)據(jù)是否合乎要求,以及發(fā)現(xiàn)超出正常范圍、邏輯不合理或者相互矛盾的數(shù)據(jù),便于進(jìn)一步核對和糾正。
文本數(shù)據(jù)
n-gram:多個連續(xù)單詞或字符的集合,n-gram之間可重疊
token:標(biāo)記,將文本分解而成的單元(單詞、字符或n-gram)
分詞:tokenization,將文本分解成標(biāo)記的過程
停詞:stop words,文本中出現(xiàn)頻率相對較高,但是對于文本實(shí)際意義沒有太大關(guān)聯(lián)的單詞
one-hot編碼:one-hot encoding
one-hot散列技巧:one-hot hashing trick
標(biāo)記嵌入:token embedding,通常只用于單詞,叫做詞嵌入,word embedding
片段的詞嵌入:Segmental Embedding
二元語法袋:bag-of-2-grams
三元語法袋:bag-of-3-grams
袋:bag,指我們處理的是標(biāo)記組成的集合,而不是一個列表或序列,即標(biāo)記沒有特定的順序
詞袋:bag-of-words,一個不保存順序的分詞方法
預(yù)訓(xùn)練詞嵌入:pretrained word embedding
平行語料:Parallel Corpus,成對的源語言句子和目標(biāo)語言句子的集合
<PAD>:填充單詞
<UNK>:不存在的單詞
<SOS>:Start Of Sentence
<EOS>:End Of Sentence
word2vec:一種詞嵌入算法
GloVe:global vectors for word representation,詞表示全局向量
TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(Term Frequency),IDF是逆文本頻率指數(shù)(Inverse Document Frequency)
Skig-Gram:跳字模型
連續(xù)詞袋模型:Continuous Bag Of Words,CBOW
分桶:Bucketing
詞干提取(stemming)和詞形還原(lemmatization)
詞形還原(lemmatization),是把一個任何形式的語言詞匯還原為一般形式(能表達(dá)完整語義),而詞干提取(stemming)是抽取詞的詞干或詞根形式(不一定能夠表達(dá)完整語義)。詞形還原和詞干提取是詞形規(guī)范化的兩類重要方式,都能夠達(dá)到有效歸并詞形的目的,二者既有聯(lián)系也有區(qū)別。 ?
目標(biāo)一致。詞干提取和詞形還原的目標(biāo)均為將詞的屈折形態(tài)或派生形態(tài)簡化或歸并為詞干(stem)或原形的基礎(chǔ)形式,都是一種對詞的不同形態(tài)的統(tǒng)一歸并的過程。 結(jié)果部分交叉。詞干提取和詞形還原不是互斥關(guān)系,其結(jié)果是有部分交叉的。一部分詞利用這兩類方法都能達(dá)到相同的詞形轉(zhuǎn)換效果。如“dogs”的詞干為“dog”,其原形也為“dog”。 主流實(shí)現(xiàn)方法類似。目前實(shí)現(xiàn)詞干提取和詞形還原的主流實(shí)現(xiàn)方法均是利用語言中存在的規(guī)則或利用詞典映射提取詞干或獲得詞的原形。 應(yīng)用領(lǐng)域相似。主要應(yīng)用于信息檢索和文本、自然語言處理等方面,二者均是這些應(yīng)用的基本步驟。
區(qū)別。在原理上,詞干提取主要是采用“縮減”的方法,將詞轉(zhuǎn)換為詞干,如將“cats”處理為“cat”,將“effective”處理為“effect”。而詞形還原主要采用“轉(zhuǎn)變”的方法,將詞轉(zhuǎn)變?yōu)槠湓?#xff0c;如將“drove”處理為“drive”,將“driving”處理為“drive”。 在復(fù)雜性上,詞干提取方法相對簡單,詞形還原則需要返回詞的原形,需要對詞形進(jìn)行分析,不僅要進(jìn)行詞綴的轉(zhuǎn)化,還要進(jìn)行詞性識別,區(qū)分相同詞形但原形不同的詞的差別。詞性標(biāo)注的準(zhǔn)確率也直接影響詞形還原的準(zhǔn)確率,因此,詞形還原更為復(fù)雜。 在實(shí)現(xiàn)方法上,雖然詞干提取和詞形還原實(shí)現(xiàn)的主流方法類似,但二者在具體實(shí)現(xiàn)上各有側(cè)重。詞干提取的實(shí)現(xiàn)方法主要利用規(guī)則變化進(jìn)行詞綴的去除和縮減,從而達(dá)到詞的簡化效果。詞形還原則相對較復(fù)雜,有復(fù)雜的形態(tài)變化,單純依據(jù)規(guī)則無法很好地完成。其更依賴于詞典,進(jìn)行詞形變化和原形的映射,生成詞典中的有效詞。 在結(jié)果上,詞干提取和詞形還原也有部分區(qū)別。詞干提取的結(jié)果可能并不是完整的、具有意義的詞,而只是詞的一部分,如“revival”詞干提取的結(jié)果為“reviv”,“ailiner”詞干提取的結(jié)果為“airlin”。而經(jīng)詞形還原處理后獲得的結(jié)果是具有一定意義的、完整的詞,一般為詞典中的有效詞。 在應(yīng)用領(lǐng)域上,同樣各有側(cè)重。雖然二者均被應(yīng)用于信息檢索和文本處理中,但側(cè)重不同。詞干提取更多被應(yīng)用于信息檢索領(lǐng)域,如Solr、Lucene等,用于擴(kuò)展檢索,粒度較粗。詞形還原更主要被應(yīng)用于文本挖掘、自然語言處理,用于更細(xì)粒度、更為準(zhǔn)確的文本分析和表達(dá)
N-gram模型
N-gram是自然語言處理中常見一種基于統(tǒng)計的語言模型。它的基本思想是將文本里面的內(nèi)容按照字節(jié)進(jìn)行大小為N的滑動窗口操作,形成了長度是N的字節(jié)片段序列。每一個字節(jié)片段稱為gram,在所給語句中對所有的gram出現(xiàn)的頻數(shù)進(jìn)行統(tǒng)計。再根據(jù)整體語料庫中每個gram出現(xiàn)的頻數(shù)進(jìn)行比對可以得到所給語句中每個gram出現(xiàn)的概率。N-gram在判斷句子合理性、句子相似度比較、分詞等方面有突出的表現(xiàn)。
比如:
假設(shè)你在和一個外國人交流,他說了一句“I have a gun”,但是由于他的發(fā)音不標(biāo)準(zhǔn),到你耳朵里可能是“I have a gun”、“I have a gull”或“I have a gub”。那么哪句話是正確的呢?。假設(shè)你根據(jù)經(jīng)驗覺得有80%的概率是“I have a gun”,那么你已經(jīng)得到一個N-gram的輸出。即:
P(****I have a gun) = 80%
?N-gram本身也指一個由N個單詞組成的集合,各單詞具有先后順序,且不要求單詞之間互不相同。最簡單的是一元語法unigram(N=1),常用的有 Bi-gram (N=2) 和 Tri-gram (N=3),一般已經(jīng)夠用了。例如在“I love deep learning”這句話里,可以分解的** Bi-gram** 和?Tri-gram?:
**Bi-gram :?{I, love}, {love, deep}, {love, deep}, {deep, learning}
Tri-gram :?**{I, love, deep}, {love, deep, learning}
音頻數(shù)據(jù)
脈沖編碼調(diào)制:Pulse-code Modulation,PCM
梅爾尺度:Mel-scale
梅爾過濾器:Mel Filter
奈奎斯特采樣定理:Nyquist Sampling Theorem
梅爾倒頻譜系數(shù):Mel-Frequency Cepstral Coefficients,MFCC
確定數(shù)據(jù)集規(guī)模
取決于:
- 所需解決問題的難易程度
- 所采用的模型的復(fù)雜程度(模型參數(shù)數(shù)量)
- 想要達(dá)到什么樣的性能
① 最快的方法
查找相關(guān)領(lǐng)域的論文資料,別人一般用多少的數(shù)據(jù)量
② 經(jīng)驗范圍
回歸分析:要訓(xùn)練出一個性能良好的模型,所需訓(xùn)練樣本數(shù)量應(yīng)是模型參數(shù)數(shù)量的10倍。
缺點(diǎn):
- 稀疏特征:例如稀疏特征的編碼是01001001對于模型的訓(xùn)練能夠起到作用的特征是少數(shù)的,而不起作用的特征占大多數(shù)。依照上述線性規(guī)則,若模型對于每個特征分配相應(yīng)的參數(shù),也就是說對于無用的特征也分配了相應(yīng)的參數(shù),再根據(jù)10倍規(guī)則法,獲取是模型參數(shù)數(shù)量10倍的訓(xùn)練樣本集,此時的訓(xùn)練樣本數(shù)量對于最佳的訓(xùn)練模型來說可能是超量的,所以,此時用10倍規(guī)則法得到的訓(xùn)練樣本集未必能夠真實(shí)地得出好的訓(xùn)練模型。
- 由于正則化和特征選擇技術(shù),訓(xùn)練模型中真實(shí)輸入的特征的數(shù)量少于原始特征數(shù)量。
計算機(jī)視覺:對于使用深度學(xué)習(xí)的圖像分類,經(jīng)驗法則是每一個分類需要 1000 幅圖像,如果使用預(yù)訓(xùn)練的模型則可以用更少數(shù)據(jù)去訓(xùn)練。
③ 在分類任務(wù)中確定訓(xùn)練數(shù)據(jù)量的方法
學(xué)習(xí)曲線是誤差與訓(xùn)練數(shù)據(jù)量的關(guān)系圖。我們可以建立一個學(xué)習(xí)曲線的函數(shù),然后采用非線性回歸或者加權(quán)非線性回歸對學(xué)習(xí)曲線進(jìn)行擬合,然后找到期望準(zhǔn)確率下的樣本數(shù)量。
④ 樣本容量估計(給定統(tǒng)計檢驗的檢驗效能,確定樣本數(shù)量)
N是所需樣本數(shù)量,??α是一定置信度所對應(yīng)的的標(biāo)準(zhǔn)正態(tài)分布的常數(shù), ?σ是樣本的標(biāo)準(zhǔn)差,??e是可接受的誤差范圍。
⑤ 訓(xùn)練數(shù)據(jù)規(guī)模的統(tǒng)計學(xué)習(xí)理論
VC 維是模型復(fù)雜度的度量,模型越復(fù)雜,VC 維越大。
N為所需樣本數(shù)量,d為失效概率,ε為學(xué)習(xí)誤差
⑥ 一般準(zhǔn)則
傳統(tǒng)的機(jī)器學(xué)習(xí)算法:性能是按照冪律增長的,一段時間后趨于平穩(wěn)。
深度學(xué)習(xí):性能隨著數(shù)據(jù)的增加呈現(xiàn)對數(shù)增長
總結(jié)
以上是生活随笔為你收集整理的机器学习中的数据及其处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一百多个Zbrush实用笔刷和Alpah
- 下一篇: 将新项目上传到SVN服务器