當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scikit-learn学习笔记（二）load_files加载自己的文件

發(fā)布時(shí)間：2024/1/23 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 scikit-learn学习笔记（二）load_files加载自己的文件小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這里不討論加載常用的公用數(shù)據(jù)集，而是討論加載自己的原始數(shù)據(jù)（即，實(shí)際中遇到的數(shù)據(jù)）

sklearn.datasets.load_files(container_path,?description=None,?categories=None,load_content=True,?shuffle=True,?encoding=None,?decode_error='strict',?random_state=0)[source]

加載文本文件存儲(chǔ)的數(shù)據(jù)集，其中不同類別的文件存放路徑為：

container_folder/

category_1_folder/

file_1.txt file_2.txt ... file_42.txt

category_2_folder/

file_43.txt file_44.txt ...

其中，子文件夾（category_1_folder）的名字區(qū)別，作為監(jiān)督學(xué)習(xí)的標(biāo)簽區(qū)別。至于每個(gè)文件的具體命名，隨便。

上面的參數(shù)只解釋container_path，load_content=True，encoding=None：

container_path：“container_folder”的路徑。

load_content=True：是否真的把文件中的內(nèi)容加載到內(nèi)存中，選擇true就是了。

encoding=None：string or None (default is None)，是否解碼文件中的內(nèi)容（主要針對(duì)圖片、視頻或其他二進(jìn)制文件，而非文本內(nèi)容）；如果不是None，那么在load_content=True的情況下，就會(huì)解碼文件中的內(nèi)容。注意，當(dāng)前文本文件的編碼方式一般為“utf-8”。如果不指明編碼方式（encoding=None），那么文件內(nèi)容將會(huì)按照bytes處理，而不是unicode處理，這樣模塊“sklearn.feature_extraction.tex”中的很多函數(shù)就不能用了。

返回值：data?: Bunch

Dictionary-like object。我們感興趣的有：

data：原始數(shù)據(jù)，格式參考下圖。

filenames：每個(gè)文件的名字

target：類別標(biāo)簽（從0開始的整數(shù)索引）

target_names：類別標(biāo)簽（數(shù)字）的具體含義（由子文件夾的名字category_1_folder決定）

實(shí)例：

data_folder/

category_1_folder/

1.txt file_2.txt?

category_2_folder/

3.txt 4.txt?

from?sklearn?import?datasets??

rawData?=?datasets.load_files("data_folder")??

rawData??

Out[10]:???

{'DESCR':?None,??

?'data':?['5?start,?\r\ni?like?this?book.',??

??'4?start,?\r\nthis?book?is?good,\r\ni?like?it.',??

??"1?start,?\r\npretty?bad,?don't?like?it?at?all.",??

??"2?start,?\r\nwe?don't?like?so?much."],??

?'filenames':?array(['data_folder\\positive_folder\\1.txt',??

????????'data_folder\\positive_folder\\2.txt',??

????????'data_folder\\negative_folder\\4.txt',??

????????'data_folder\\negative_folder\\3.txt'],???

???????dtype='|S33'),??

?'target':?array([1,?1,?0,?0]),??

?'target_names':?['negative_folder',?'positive_folder']}??

rawData.data??

Out[11]:???

['5?start,?\r\ni?like?this?book.',??

?'4?start,?\r\nthis?book?is?good,\r\ni?like?it.',??

?"1?start,?\r\npretty?bad,?don't?like?it?at?all.",??

?"2?start,?\r\nwe?don't?like?so?much."]??

rawData.target??

Out[12]:?array([1,?1,?0,?0])??

rawData.filenames[rawData.target[0]]??

Out[13]:?'data_folder\\positive_folder\\2.txt'

總結(jié)

以上是生活随笔為你收集整理的scikit-learn学习笔记（二）load_files加载自己的文件的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： scikit-learn学习笔记（一）快
下一篇： scikit-learn学习笔记（三）G