python将数据集分成训练样本和类标签
生活随笔
收集整理的這篇文章主要介紹了
python将数据集分成训练样本和类标签
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
這里假設 類標簽為largeDoses, smallDoses, didntLike三類,假設訓練樣本有三個特征屬性,類標簽放在數據集的最后一列
import numpy as npdef file2matrix(filename): # filename是文件保存地址love_dictionary = {'largeDoses':3, 'smallDoses':2, 'didntLike':1}fr = open(filename)arrayOLines = fr.readlines()numberOfLines = len(arrayOLines) # 獲得文件的行數returnMat = np.zeros((numberOfLines, 3)) # 用于存放訓練數據classLabelVector = [] # 用于存放類標簽index = 0for line in arrayOLines:line = line.strip() # 截取掉所有的回車字符listFromLine = line.split() returnMat[index, :] = listFromLine[0:3] # 存放訓練樣本if(listFromLine[-1].isdigit()): # 如果標簽字符串是數字,用int()函數轉換為數字類型classLabelVector.append(int(listFromLine[-1]))else: # 如果標簽字符串不是數字,利用字典轉換為數字類型classLabelVector.append(love_dictionary.get(listFromLine[-1]))index += 1return returnMat, classLabelVectorisdigit()判斷一個字符串是否為數字
b = ['a', '2a', '2'] print(b[0].isdigit()) print(b[1].isdigit()) print(b[2].isdigit())False False True?
總結
以上是生活随笔為你收集整理的python将数据集分成训练样本和类标签的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pytorch查看应用指数衰减后的学习率
- 下一篇: 大一新生计算机课word知识,大学新生计