NLP之替换不在词表中的分词为‘UNK‘
生活随笔
收集整理的這篇文章主要介紹了
NLP之替换不在词表中的分词为‘UNK‘
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1. 問題描述
現在有一個詞表,它是取分詞后的語料,統計出現頻率最高的300個(前300個)詞構建的詞表。現在要將分詞后的語料進行替換,替換掉那些不在詞表中的token為“UNK”,在詞表中的則保持不變。
語料csv文件內容格式如下:
| 未正則化的原始語料 | 正則化并分詞后的語料 | 查詢詞表后待生成的列 |
?2. 解決方法
# 根據第二列parsed,查詢詞表后,生成第三列words def generate_words(col_parsed, evil_word_vocab):lst = []for i in col_parsed:words = []for j in i:if j in evil_word_vocab:words.append(j)else:words.append('UNK')lst.append(words)words = words.copy()words.clear()return lst # 這里要用 tolist()方法 將詞表中詞那一列轉化為列表 list_words = generate_words(evil['parsed'], evil_word_vocab['word'].tolist()) # 將新生成的word列添加到原csv文件中 evil['words'] = list_words總結
以上是生活随笔為你收集整理的NLP之替换不在词表中的分词为‘UNK‘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MS SQLServer 2008数据库
- 下一篇: Mac 解决selenium调试每次打开