scikit-learn学习笔记(二)load_files加载自己的文件
這里不討論加載常用的公用數(shù)據(jù)集,而是討論加載自己的原始數(shù)據(jù)(即,實(shí)際中遇到的數(shù)據(jù))
sklearn.datasets.load_files(container_path,?description=None,?categories=None,load_content=True,?shuffle=True,?encoding=None,?decode_error='strict',?random_state=0)[source]
加載文本文件存儲(chǔ)的數(shù)據(jù)集,其中不同類別的文件存放路徑為:
container_folder/其中,子文件夾(category_1_folder)的名字區(qū)別,作為監(jiān)督學(xué)習(xí)的標(biāo)簽區(qū)別。至于每個(gè)文件的具體命名,隨便。
上面的參數(shù)只解釋container_path,load_content=True,encoding=None:
container_path:“container_folder”的路徑。
load_content=True:是否真的把文件中的內(nèi)容加載到內(nèi)存中,選擇true就是了。
encoding=None:string or None (default is None),是否解碼文件中的內(nèi)容(主要針對(duì)圖片、視頻或其他二進(jìn)制文件,而非文本內(nèi)容);如果不是None,那么在load_content=True的情況下,就會(huì)解碼文件中的內(nèi)容。注意,當(dāng)前文本文件的編碼方式一般為“utf-8”。如果不指明編碼方式(encoding=None),那么文件內(nèi)容將會(huì)按照bytes處理,而不是unicode處理,這樣模塊“sklearn.feature_extraction.tex”中的很多函數(shù)就不能用了。
返回值:data?: Bunch
Dictionary-like object。我們感興趣的有:
data:原始數(shù)據(jù),格式參考下圖。
filenames:每個(gè)文件的名字
target:類別標(biāo)簽(從0開始的整數(shù)索引)
target_names:類別標(biāo)簽(數(shù)字)的具體含義(由子文件夾的名字category_1_folder決定)
實(shí)例:
3.txt 4.txt?
總結(jié)
以上是生活随笔為你收集整理的scikit-learn学习笔记(二)load_files加载自己的文件的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: scikit-learn学习笔记(一)快
- 下一篇: scikit-learn学习笔记(三)G