推荐:26种NLP练手项目(代码+数据)
?
1.分詞 Word Segmentation
chqiwang/convseg?,基于CNN做中文分詞,提供數(shù)據(jù)和代碼。
對(duì)應(yīng)的論文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation?IJCNLP2017.
?
2.詞預(yù)測(cè) Word Prediction
Kyubyong/word_prediction?,基于CNN做詞預(yù)測(cè),提供數(shù)據(jù)和代碼。
?
3. 文本蘊(yùn)涵 Textual Entailment
Steven-Hewitt/Entailment-with-Tensorflow,基于Tensorflow做文本蘊(yùn)涵,提供數(shù)據(jù)和代碼。
?
4. 語音識(shí)別 Automatic Speech Recognition
buriburisuri/speech-to-text-wavenet,基于DeepMind WaveNet和Tensorflow做句子級(jí)語音識(shí)別。
5. 自動(dòng)摘要 Automatic Summarisation
PKULCWM/PKUSUMSUM,北大萬小軍老師團(tuán)隊(duì)的自動(dòng)摘要方法匯總,包含了他們大量paper的實(shí)現(xiàn),支持單文檔摘要、多文檔摘要、topic-focused多文檔摘要。
?
6. 文本糾錯(cuò) Text Correct
atpaino/deep-text-corrector,基于深度學(xué)習(xí)做文本糾錯(cuò),提供數(shù)據(jù)和代碼。
?
7.字音轉(zhuǎn)換 Grapheme to Phoneme
cmusphinx/g2p-seq2seq,基于網(wǎng)紅transformer做, 提供數(shù)據(jù)和代碼。
?
8. 復(fù)述檢測(cè) Paraphrase Detection 和 問答 Question Answering
Paraphrase-Driven Learning for Open Question Answering, 基于復(fù)述驅(qū)動(dòng)學(xué)習(xí)的開放域問答。
?
9. 音漢互譯 Pinyin-To-Chinese
Kyubyong/neural_chinese_transliterator,基于CNN做音漢互譯。
?
10. 情感分析 Sentiment Analysis
情感分析包括的內(nèi)容太多了,目前沒發(fā)現(xiàn)比較全的。推薦兩個(gè)適合練手的吧:Deeply Moving: Deep Learning for Sentiment Analysis,http://sentic.net/about/。
?
11. 手語識(shí)別 Sign Language Recognition
Home - SignAll, 該項(xiàng)目在手語識(shí)別做的非常成熟。
?
12. 詞性標(biāo)注(POS)、 命名實(shí)體識(shí)別(NER)、 句法分析(parser)、 語義角色標(biāo)注(SRL) 等。
HIT-SCIR/ltp, 包括代碼、模型、數(shù)據(jù),還有詳細(xì)的文檔,而且效果還很好。
?
13. 詞干 Word Stemming
snowballstem/snowball, 實(shí)現(xiàn)的詞干效果還不錯(cuò)。
?
14. 語言識(shí)別 Language Identification
https://github.com/saffsd/langid.py,語言識(shí)別比較好的開源工具。
?
15. 機(jī)器翻譯 Machine Translation
OpenNMT/OpenNMT-py, 基于PyTorch的神經(jīng)機(jī)器翻譯,很適合練手。
?
16. 復(fù)述生成 Paraphrase Generation
vsuthichai/paraphraser,基于Tensorflow的句子級(jí)復(fù)述生成,適合練手。
?
17. 關(guān)系抽取 Relationship Extraction
ankitp94/relationship-extraction,基于核方法的關(guān)系抽取。
?
18. 句子邊界消歧 Sentence Boundary Disambiguation
https://github.com/Orekhov/SentenceBreaking,很有意思。
?
19.事件抽取 Event Extraction
liuhuanyong/ComplexEventExtraction, 中文復(fù)合事件抽取,包括條件事件、因果事件、順承事件、反轉(zhuǎn)事件等事件抽取,并形成事理圖譜。
?
20. 詞義消歧 Word Sense Disambiguation
alvations/pywsd,代碼不多,方法簡(jiǎn)單,適合練手。
?
21. 命名實(shí)體消歧 Named Entity Disambiguation
dice-group/AGDISTIS,實(shí)體消歧是很重要的,尤其對(duì)于實(shí)體融合(比如知識(shí)圖譜中多源數(shù)據(jù)融合)、實(shí)體鏈接。
?
22. 幽默檢測(cè) Humor Detection
pln-fing-udelar/pghumor
?
23. 諷刺檢測(cè) Sarcasm Detection
AniSkywalker/SarcasmDetection,基于神經(jīng)網(wǎng)絡(luò)的諷刺檢測(cè)。
?
24. 實(shí)體鏈接 Entity Linking
hasibi/EntityLinkingRetrieval-ELR, 實(shí)體鏈接用途非常廣,非常適合練手。
?
25. 指代消歧 Coreference Resolution
huggingface/neuralcoref,基于神經(jīng)網(wǎng)絡(luò)的指代消歧。
?
26. 關(guān)鍵詞/短語抽取和社會(huì)標(biāo)簽推薦 Keyphrase Extraction and Social Tag Suggestion
thunlp/THUTag, 用多種方法 實(shí)現(xiàn)了多種關(guān)鍵詞/短語抽取和社會(huì)標(biāo)簽推薦。
參考:https://zhuanlan.zhihu.com/p/51279338
總結(jié)
以上是生活随笔為你收集整理的推荐:26种NLP练手项目(代码+数据)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据结构与算---重点复习知识
- 下一篇: python杂谈