实验部分小结:数据集处理部分
在進行實驗部分時,首先要得到文章的源代碼,一般文章中的數據集只會有一個,通過運行它,然后結合一些評價指標,通過與文章中的實驗結果進行對比,來驗證此方法的有效性。那么,我作為一個讀者,不僅需要把現成的數據集跟方法聯合一起運行出來,然后還要學會利用別的數據集在此方法中進行運行,以此來驗證方法的有效性。并且利用現有的數據集在其他方法上運行,得到結果與提出方法進行比較。那么在這里,就涉及到了數據集處理問題
1.多視圖多標簽數據集下載問題:
https://mulan.sourceforge.net/datasets-mlc.html
https://archive.ics.uci.edu/ml/datasets.php
http://lear.inrialpes.fr/people/guillaumin/data.php
http://123.57.240.48/forum.php?mod=viewthread&tid=1391
http://lear.inrialpes.fr/data/
通過這些網頁找到相應的數據集進行下載
2.多視圖多標簽數據集處理問題:
下載后的數據集大多是沒有處理過的,里面又許多的多視圖特征,比如顏色特征,全局特征等等,還有標簽的訓練集和測試集,這時一般的方法是通過三個m文件進行處理,分別是 vec_read.m,vec_write.m,以及數據集的對應的m文件。比如:
比如在load_espgame_data.m中,我們在里面可以根據自己的需要選擇多視圖的維度特征,需要4維或者5維等
Note:
1.注意這里對數據集處理的時候一定要先看下原文章中的數據集格式是什么樣的,否則處理后的數據可能在文中的方法中無法運行。
比如下面這個例子中,因為在處理數據時沒有添加Dim這一項,導致運行的時候報錯
2.那么在處理數據集的時候,需要按照文章中給出的數據集的要素來進行處理嗎?比如這張圖?這是不是代表我必須要有25000的樣本數,類別數也要一樣,其他也要一樣才行呢?如果不一樣,會不會影響到數據的結果?
根據實踐結果顯示,在處理數據集的時候并不需要完全按照表格中的各個元素來進行處理,畢竟也許你下載到的數據集類別可能本身就不一樣,或者因為你電腦內存的問題導致你根本無法運行幾十萬的樣本標簽,這時你只能選擇其中的一部分數據進行運行了。由于電腦內存的原因,無法得到一個最優結果的話,這種情況下要么換一個內存更大的電腦,要不就是對數據集進行拆分,選擇一部分數據。然后多次實驗,選擇最優結果。
3.在處理數據集的時候,一定要保證標簽的數量和特征的數量一致,也就是標簽維度和特征維度一致,否則就會報出下面的錯誤來。
4.遇到下面這種情況,可能是因為數據集文件里含有.txt文件,
錯誤提示如下:
錯誤使用 fread
文件標識符無效。使用 fopen 生成有效的文件標識符。
出錯 vec_read (line 56)
出錯 pascal07 (line 16)
這時對于txt文件,直接采用matlab中的load函數處理數據即可,具體語句如下(在命令行出直接輸入即可):
load(‘數據集名稱_train_classes.txt’)
load(‘數據集名稱_test_classes.txt’
5.遇到這種問題時:
在網上搜索到的解決方法,一般是針對矩陣求逆時引起的這種錯誤,然后又對應的解決方法,參考這個:http://t.csdn.cn/NyEQr
但針對我的實際情況來看,并沒有求逆的運算,所以有可能是因為這種原因導致報錯。如下:
或者僅僅是因為我處理的這個數據集跟文章中提出的方法命名備份有些沖突……這個也是很有可能的,畢竟利用別的數據集進行運行沒有報出這樣的錯誤
總結
以上是生活随笔為你收集整理的实验部分小结:数据集处理部分的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于数字证书链的一点认知
- 下一篇: 计算机编辑学,计算机常识及电文档编辑学习