當前位置：首頁 > 人工智能 > 循环神经网络 >内容正文

循环神经网络

循环神经网络和自然语言处理介绍

發布時間：2024/5/14 循环神经网络 57 豆豆

生活随笔收集整理的這篇文章主要介紹了循环神经网络和自然语言处理介绍小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目標

1.了解token和tokenization。
2.知道N-gram的概念和作用。
3.知道文本向量化表示的方法。

1.文本的tokenization

1.1 基本概念

tokenization就是通常所說的分詞，分出的每一個詞語稱為token。

1.2 中英文分詞的方法

把句子轉化為詞語
把句子轉化為單個字

2. N-gram表示方法

2.1 基本概念

N-gram模型是一種語言模型（Language Model，LM），語言模型是一個基于概率的判別模型，它的輸入是一句話（單詞的順序序列），輸出是這句話的概率，即這些單詞的聯合概率（joint probability）。

2.2 N-gram用途

N-gram用途有下：

1.詞性標注
2.垃圾短信分類
3.分詞器
4.機器翻譯和語音識別

3. 向量化

把文本轉化成向量有兩種方法：

1.轉化為one-hot編碼
2.轉化為word embedding

3.1 one-hot編碼

one-hot編碼使用稀疏的向量表示文本，占用空間多

3.2 word embedding

word embedding使用了浮點型的稠密矩陣來表示token，根據詞典的大小，我們的向量通常使用不同的維度，例如100，256，300等等。其中向量中的每一個值都是超參數，其初始值都是隨機生成的，之后會在訓練的過程中進行學習而獲得。
我們會把所有的文本轉化為向量，把句子用向量來表示。
但是在這中間，我們會先把token使用數字來表示，再把數字使用向量來表示。

3.3 word embedding API

使用torch.nn.Embedding(num_embedding,embedding_dim)
參數介紹：

1.num_embedding:詞典的大小
2.embedding_dim:embedding的維度
使用方法：

embedding=nn.Embedding(vocab_size,300)#實例化 input_embeded=embedding(input)#進行embedding的操作

形狀的變化：從[batch_size,seq_len]變成[batch_size,seq_len,embedding_dim]。

4. 文本情感分類

4.1 目標

1.知道文本處理的基本方法
2.能夠使用數據實現情感分類

4.2 思路分析

首先可以把上述問題定義為分類問題，情感評分為1-10。依據之前的學習內容，大致流程如下：

1.準備數據集
2.構建模型
3.模型訓練
4.模型評估

4.3 準備數據集

在這一部分，我們需要實例化dataset，準備dataloader。其中需要注意：

1.如何完成基礎的Dataset和Dataloader的構建；
2.每個batch中文本的長度不一致的問題如何解決；
3.每個batch中文本如何轉化為數字序列。

4.4 文本序列化

實現文本序列化考慮的問題：

1.如何使用字典把詞語和數字進行對應
2.不同的詞語出現的次數不盡相同，是否需要對高頻或者低頻詞語進行過濾，以及總的詞語數量是否需要進行限制
3.得到詞典之后，如何把數字序列轉化為句子
4.不同句子長度不同，每個batch的句子如何構造出相同的長度（可以對短句子填充特殊字符）
5.對于在測試集中新出現的詞語，可以用特殊字符代理
思路分析：
1.對所有句子進行分詞
2.詞語存入字典，根據次數對詞語進行過濾，并統計次數
3.實現文本轉數字序列的方法
4.實現數字序列轉文本方法

實現如下：

1.dataset.py:

from torch.utils.data import DataLoader,Dataset from lib import ws,max_len import torch import os import re#利用正則方法分詞，并且去除不必要的符號 def tokenlize(content):re.sub("<.*?>"," ",content)fileters=['\.','\t','\n','\x96','\x97']content=re.sub("|".join(fileters)," ",content)tokens=[i.strip() for i in content.spilt()]return tokensclass ImbDataset(Dataset):def __init__(self,train=True):self.train_data_path=r"..."#訓練集數據讀取路徑self.test_data_path = r"..." #測試集數據讀取路徑data_path=self.train_data_path if train else self.test_data_path#把所有文件名放入列表,即pos和neg兩個文件夾存入列表temp_data_path=[os.path.join(data_path,"pos"),os.path.join(data_path,"neg")]self.total_file_path=[]#所有的評論文件的路徑pathfor path in temp_data_path:file_name_list=os.listdir(path)#得到pos或者neg文件夾內部所有文件名file_path_list=[os.path.join(path,i) for i in file_name_list if i.endswith(".txt")]#過濾不是以.txt結尾的文件self.total_file_path.extend(file_path_list)def __getitem__(self, index):file_path=self.total_file_path[index]#獲取labellabel_str=file_path.split("\\")[-2]label=0 if label_str =="neg" else 1#獲取內容tokens=tokenlize(open(file_path).read())return tokens,labeldef __len__(self):return len(self.total_file_path)def collate_fn(batch):""":param batch: ([tokens,label],[tokens,label],...):return:"""content,label=list(zip(*batch))content=[ws.transform(i,max_len=max_len) for i in content]content=torch.LongTensor(content)#轉化成LongTensor，否則在model.py中的embedding()中無法執行，原因是embedding的對象必須是LongTensorlabel=torch.LongTensor(label)return content,labeldef get_dataloader(train=True):imdb_dataset=ImbDataset()data_loader=DataLoader(imdb_dataset,batch_size=2,shuffle=True,collate_fn=collate_fn)return data_loader

2.word2sequence.py:

import numpy as np import osclass word2sequence():UNK_TAG="UNK"PAD_TAG="PAD"UNK=0PAD=1def __init__(self):#字典，初始情況下存入兩個特殊字符self.__dict__={self.UNK_TAG:self.UNK,self.PAD_TAG:self.PAD}self.fited=Falseself.count={}#統計詞頻def fit(self,sentence):"""把單個句子保存到dict中:param sentence: [word1,word2,word3...]:return:"""for word in sentence:self.count[word]=self.count.get(word,0)+1#統計詞頻def bulid_vocab(self,min=0,max=None,max_features=None):"""生成詞典:param min:最小出現的次數:param max:最大的次數:param max_features:保留的詞語數:return:"""# 刪除count中詞頻小于min的單詞if min is not None:self.count={word:value for word,value in self.count if value>=min}# 刪除count中詞頻大于max的單詞if max is not None:self.count={word:value for word,value in self.count if value<max}#限制保留的詞語數if max_features is not None:temp=sorted(self.count.items(),key=lambda x:x[-1],reverse=True)[:max_features]#排序，取前max_features個詞頻的單詞self.count=dict(temp)#sorted之后，結果為列表，需要重新轉換成字典for word in self.count:self.dict[word]=len(self.dict)#給每個單詞進行賦值，由于初始情況已經有兩個特殊字符，所以新進入的第一個單詞的值為2，此后不斷疊加#得到一個翻轉的dict字典(利用鍵和值的重新匹配)self.inverse_dict=dict(zip(self.dict.values(),self.dict.keys()))def transform(self,sentence,max_len=None):"""把句子轉化成序列:param sentence:[wword1,word2,word3...]:param max_len: int 對句子進行填充或者裁剪:return:"""if max_len is not None:if max_len>len(sentence):#填充sentence=sentence+[self.PAD_TAG]*(max_len-len(sentence))if max_len<len(sentence):#裁剪sentence=sentence[:max_len]return [self.dict.get(word,self.UNK) for word in sentence]def inverse_transform(self,indices):"""把序列轉化成句子:param indices: [1,2,3...]:return:"""return [self.dinverse_dict.get(idx) for idx in indicesfrom main import word2sequence import pickle from dataset import tokenlize #從一開始定義的數據集中導入tokenlize from tqdm import tqdm#顯示可迭代對象的加載進度if __name__=='__main__':ws=word2sequence()path=r"..."#寫入路徑temp_data_path=[os.path.join(path,"pos"),os.path.join(path,"neg")]for data_path in temp_data_path:file_paths=[os,path.join(data_path,file_name) for file_name in os.listdir(data_path)]for file_path in tqdm(file_paths):sentence = tokenlize(open(file_path).read())ws.fit(sentence)ws.bulid_vocab(min=10)pickle.dump(ws,open("./model/ws.pkl","wb"))#保存文件

3.lib.py:

import pickle ws=pickle.load(open("./model/ws/pkl","rb"))#保存數據 max_len=20

4.5 構建模型

這里我們只聯系使用word embedding，所以模型只有一層，即：

1.數據經過word embedding
2.數據通過全連接層返回結果，計算log_softmax
為了方便理解，我們只使用了一層模型，所以效果可能并不是特別理想。
model.py代碼如下：

import torch import torch.nn as nn from lib import ws，max_len import torch.nn.functional as Fclass MyModel(nn.Module):def __init__(self):super(MyModel,self).__init__()self.embedding=nn.Embedding(len(ws),100)#兩個參數，前一個是訓練的詞語的數量，后一個是每一個詞語的維度self.fc=nn.Linear(max_len*100,2)#Linear()函數對象必須是二維，所以在forward里面必須進行view()操作def forward(self,input):""":param input: [batch_size,max_len]:return:"""x=self.embedding(input)#進行embedding操作,形狀成為：[batch_size,max_len,100]x=x.view([-1,max_len*100])out=self.fc(x)return F.log_softmax(out,dim=-1)

總結

以上是生活随笔為你收集整理的循环神经网络和自然语言处理介绍的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【自然语言处理】【大模型】用于大型Tra
下一篇： SMIT快捷命令总结