當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

这个自然语言处理“工具”，玩得停不下来

發布時間：2024/7/5 编程问答 63 豆豆

生活随笔收集整理的這篇文章主要介紹了这个自然语言处理“工具”，玩得停不下来小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天推薦一個有趣的自然語言處理公眾號「AINLP」，關注后玩得根本停不下來！AINLP的維護者是我愛自然語言處理（52nlp）博主，他之前在騰訊從事NLP相關的研發工作，目前在一家創業公司帶技術團隊。AINLP公眾號的定位是一個有趣有AI的自然語言處理社區，分享有質有量的NLP技術文章，歡迎關注：

關注「AINLP」公眾號后臺回復可以根據關鍵詞觸發不同的功能，例如，可以直接用來對比分析NLP的相關工具，包括中文分詞、詞性標注、命名實體識別以及情感分析：

也可以用來單獨測試一個獨立的NLP工具，例如斯坦福大學自然語言處理組的最新NLP工具Stanza:

還可以基于詞向量查詢相似詞、相近詞：

AINLP不僅僅可以玩分析查詢，還可以玩自然語言生成，例如對對聯，寫對聯，自動作詩等，包括五言絕句、七言絕句、五言律詩、七言律詩，還有藏頭詩、藏尾詩等：

最后還可以玩狗屁不同文章生成器、彩虹屁生成器、夸夸聊天機器人等：

當然，AINLP公眾號不僅僅有趣，還分享了很多高質量的文章：

如何學習NLP和NLP相關資源

如何學習自然語言處理：一本書和一門課
如何學習自然語言處理：NLP領域經典《自然語言處理綜論》英文版第三版更新
這門斯坦福大學自然語言處理經典入門課，我放到B站了
數學之美中盛贊的 Michael Collins 教授，他的NLP課程要不要收藏？
學自然語言處理，其實更應該學好英語
李紀為博士：初入NLP領域的一些小建議
老宋同學的學習建議和論文：聽說你急缺論文大禮包？
從老宋的角度看，自然語言處理領域如何學習？
劉知遠老師NLP研究入門之道：NLP推薦書目
NLP研究入門之道：自然語言處理簡介
NLP研究入門之道：走近NLP學術界
NLP研究入門之道：如何通過文獻掌握學術動態
NLP研究入門之道：如何寫一篇合格的學術論文
NLP研究入門之道：本科生如何開始科研訓練
自然語言理解難在哪兒？
好的研究想法從哪里來
你是如何了解或者進入NLP這個領域的？
NLP is hard! 自然語言處理太難了系列

騰訊詞向量和相似詞、相似度、詞語游戲系列

相似詞查詢：玩轉騰訊 AI Lab 中文詞向量
玩轉騰訊詞向量：詞語相似度計算和在線查詢
騰訊詞向量實戰：通過Annoy進行索引和快速查詢
玩轉騰訊詞向量：Game of Words（詞語的加減游戲）
詞向量游戲：梅西-阿根廷+葡萄牙=?
騰訊 800 萬中文詞向量 API Demo 搭建
相似詞檢索，近義詞查詢，同義詞大全，這里不僅僅限于中文

NLP相關工具及在線測試（公眾號對話測試）

五款中文分詞工具在線PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP
中文分詞工具在線PK新增：FoolNLTK、LTP、StanfordCoreNLP
Python中文分詞工具大合集：安裝、使用和測試
八款中文詞性標注工具使用及在線測試
百度深度學習中文詞法分析工具LAC試用之旅
來，試試百度的深度學習情感分析工具
AINLP公眾號新增SnowNLP情感分析模塊
斯坦福大學NLP組Python深度學習自然語言處理工具Stanza試用
中文命名實體識別工具（NER）哪家強？

自動對聯及作詩機

風云三尺劍，花鳥一床書---對聯數據集和自動對聯機器人
自動對聯活動獲獎結果以及機器對聯賞析
"自動作詩機"上線，代碼和數據都是公開的
鼠年春節，用 GPT-2 自動寫對聯和對對聯
用 GPT-2 自動寫詩，從五言絕句開始
自動作詩機&藏頭詩生成器：五言、七言、絕句、律詩全了
僅供娛樂，藏尾詩生成器來了

夸夸聊天機器人及其他技能

一行Python代碼實現夸夸聊天機器人
為了夸夸聊天機器人，爬了一份夸夸語料庫
夸夸聊天機器人升級：從隨機到準個性化
來，試試語音（識別）聊天（機器人）
來，試試成語接龍
推薦一份中文數據，來試試漢字、詞語、成語、歇后語在線檢索
AINLP公眾號新增"狗屁不通文章生成器"接口
來，試試彩虹屁生成器

BERT及預訓練模型相關文章

張俊林博士系列解讀：
放棄幻想，全面擁抱Transformer：自然語言處理三大特征抽取器（CNN/RNN/TF）比較
預訓練在自然語言處理的發展: 從Word Embedding到BERT模型
從Word Embedding到Bert模型—自然語言處理中的預訓練技術發展史
Bert時代的創新（應用篇）：Bert在NLP各領域的應用進展
效果驚人的GPT 2.0模型：它告訴了我們什么
XLNet:運行機制及和Bert的異同比較

高開遠同學系列：
BERT源碼分析PART I
BERT源碼分析PART II
BERT源碼分析PART III
站在BERT肩膀上的NLP新秀們（PART I）
站在BERT肩膀上的NLP新秀們（PART II）
站在BERT肩膀上的NLP新秀們（PART III）
Nvidia League Player：來呀比到天荒地老
Dive into BERT：語言模型與知識
當BERT遇上知識圖譜
中文預訓練模型ERNIE超詳細使用指南

老宋的茶書會系列：
聽說你還沒讀過 Bert 源碼？
Bert 之后：預訓練語言模型與自然語言生成
就最近看的paper談談預訓練語言模型發展
Bert 改進：如何融入知識
ALBERT 告訴了我們什么？

太子長琴同學系列：
BERT論文筆記
XLNet 論文筆記
ERNIE Tutorial（論文筆記 + 實踐指南）
DistilBERT Understanding

邱震宇同學系列：
模型壓縮實踐系列之——layer dropout
模型壓縮實踐系列之——bert-of-theseus，一個非常親民的bert壓縮方法
模型壓縮實踐收尾篇——模型蒸餾以及其他一些技巧實踐小結

張貴發同學系列：
一步步理解BERT
最新語言表示方法XLNet
深度剖析知識增強語義表示模型——ERNIE

艾力亞爾同學的文章：
NLP - 基于 BERT 的中文命名實體識別（NER)
NLP - BERT/ERNIE 文本分類和部署

SunYanCN同學的文章：
詳解BERT閱讀理解
簡單高效的Bert中文文本分類模型開發和部署

其他預訓練模型相關：
BERT相關論文、文章和代碼資源匯總
12個NLP預訓練模型的學習筆記
transformer-XL與XLNet筆記
Reformer: The Efficient Transformer
逆向而行，中文輕量級預訓練模型的探索之路
【NLP】ALBERT粗讀（李如同學）
BERT 的演進和應用
吳金龍博士的解讀：BERT時代與后時代的NLP
谷歌BERT模型深度解析
BERT_Paper_Chinese_Translation: BERT論文中文翻譯版
【Github】BERT-train2deploy：BERT模型從訓練到部署
BERT/注意力機制/Transformer/遷移學習NLP資源大列表：awesome-bert-nlp
NLP中的詞向量對比：word2vec/glove/fastText/elmo/GPT/bert
中文預訓練ALBERT模型來了：小模型登頂GLUE，Base版模型小10倍速度快1倍
超小型bert橫空出世：訓練和預測提速10倍
RoBERTa for Chinese：大規模中文預訓練RoBERTa模型
中文語言理解基準測評(chineseGLUE)來了，公開征集數據集進行中
CLUECorpus2020：可能是史上最大的開源中文語料庫以及高質量中文預訓練模型集合
最簡單的BERT模型調用方法
【Github】BERT-NER-Pytorch：三種不同模式的BERT中文NER實驗

中文分詞

中文分詞文章索引和分詞數據資源分享
自然語言理解太難了之中文分詞八級測試
中文分詞工具評估：chinese-segmentation-evaluation
簡單有效的多標準中文分詞

命名實體識別

【論文筆記】命名實體識別論文
一文詳解深度學習在命名實體識別(NER)中的應用
中文NER任務實驗小結報告——深入模型實現細節
CLUENER2020：中文細粒度命名實體識別數據集來了

關系提取

關系提取簡述
【論文】Awesome Relation Classification Paper（關系分類）（PART I）
【論文】Awesome Relation Classification Paper（關系分類）（PART II）
【論文】Awesome Relation Extraction Paper（關系抽取）（PART III）
【論文】Awesome Relation Extraction Paper（關系抽取）（PART IV）
【論文】Awesome Relation Extraction Paper（關系抽取）（PART V）

文本分類/情感分析

幾個可作為Baseline的文本分類模型
清華THUNLP多標簽分類論文筆記：基于類別屬性的注意力機制解決標簽不均衡和標簽相似問題
【論文串燒】基于特定實體的文本情感分類總結（PART I）
基于特定實體的文本情感分類總結（PART II）
基于特定實體的文本情感分類總結（PART III）
深度學習實踐：從零開始做電影評論文本情感分析
5個例子，秒懂分類算法（達觀數據王子豪）
NLP - 15 分鐘搭建中文文本分類模型

文本摘要

拋開模型，探究文本自動摘要的本質——ACL2019 論文佳作研讀系列
文本自動摘要任務的“不完全”心得總結
BottleSum——文本摘要論文系列解讀
文本自動摘要任務的“不完全”心得總結番外篇——submodular函數優化
文本摘要(text summarization)最新研究熱點、發展趨勢，里程碑論文推薦
2015-2019年摘要模型（Summarization Model）發展綜述（一）
2015-2019年摘要模型（Summarization Model）發展綜述（二）
真正理解指針生成網絡——Summarization with Pointer-Generator Networks

對話系統/聊天機器人

生成式對話seq2seq：從rnn到transformer
QA問答系統中的深度學習技術實現
從產品完整性的角度淺談chatbot
來談談那些很棒的檢索式Chatbots論文（一）
來談談那些很棒的檢索式Chatbots論文（二）
Rasa介紹：對話系統、產品與技術
基于RASA的task-orient對話系統解析（一）
基于RASA的task-orient對話系統解析（二）——對話管理核心模塊
基于RASA的task-orient對話系統解析（三）——基于rasa的會議室預定對話系統實例
Rasa入坑指南一：初識Rasa
Rasa 入坑指南二：基于 Rasa 構建天氣查詢機器人
做對話機器人的各家企業，都在關注哪些問題
從互聯網爬蟲、自動駕駛到對話機器人，什么是Semantic（語義）？
談談文本匹配和多輪檢索

知識圖譜

“原子”因果常識圖譜
知識圖譜存儲與查詢：自然語言記憶模塊（NLM）
知識圖譜從哪里來：實體關系抽取的現狀與未來

閱讀理解

閱讀理解之（bidaf）雙向注意力流網絡
陳丹琦博士論文翻譯：神經閱讀理解與超越（Neural Reading Comprehension and Beyond）

機器翻譯

Philipp Koehn大神的神經網絡機器翻譯學習資料：NMT Book
清華大學NLP組整理的機器翻譯論文閱讀清單
機器翻譯中的強化學習：優點、缺點以及不足

文本生成

電腦也能寫出連貫的文章嗎?

論文筆記

用膩了 CRF，試試 LAN 吧？
Meta-Learning：Learning to Learn and Applications
可解釋性論文閱讀筆記1-Tree Regularization
可解釋性論文閱讀筆記2-Leveraging Language Models
使用Python復現SIGKDD2017的PAMAE算法(并行k-medoids算法)
From Word Embeddings To Document Distances 閱讀筆記
Node2Vec 論文+代碼筆記

競賽相關

AI Challenger 2017 奇遇記
AI Challenger 2018 簡記
AI Challenger 2018 文本挖掘類競賽相關代碼及解決方案匯總
AI Challenger 2018 機器翻譯冠軍參賽總結
AI Challenger_2018英中文本機器翻譯_參賽小結
AI Challenger 2018 冠軍 PPT 分享---細粒度情感分析賽道
AI Challenger 2018 冠軍代碼分享---細粒度情感分析賽道
AI Challenger 2018 第4名PPT分享---細粒度情感分析賽道
提供一個10分鐘跑通 AI Challenger 細粒度用戶評論情感分析的fastText Baseline
FlyAI算法競賽平臺初體驗
法研杯要素識別第二名方案總結：多標簽分類實踐與效果對比
2019法研杯比賽--閱讀理解任務第4名團隊參賽總結
法研杯cail2019閱讀理解比賽記錄（第5名團隊分享）
【Github】2019年達觀信息提取比賽第九名代碼和答辯PPT
CCF BDCI2019 金融信息負面及主體判定冠軍方案解析
flyai醫療智能問答比賽小結
【Github】Data Competition Top Solution: 數據競賽top解決方案開源整理

求職相關

2021 校招算法崗，勸退還是繼續
EE轉CS，拿了多個行業offer，最終選擇NLP算法崗的同學的秋招總結
14種模式解決面試算法編程題（PART I）
14種模式解決面試算法編程題（PART II）
2020秋招總結：凡是過往，皆為序章
【Github】NLPer-Interview: NLP 算法工程師相關的面試題
【Github】ML-NLP：機器學習、NLP面試中常考到的知識點和代碼實現

開源項目及資源

中文自然語言處理相關的開放任務，數據集，以及當前最佳結果
【Github】nlp-paper: 按主題分類的自然語言處理文獻大列表
CLUEDatasetSearch：搜索所有中文數據集，附常用英文數據集
用于中文閑聊的GPT2模型：GPT2-chitchat
中文歌詞生成，缺不缺語料？這里有一個開源項目值得推薦
深度學習資源大列表：關于深度學習你需要了解的一切
funNLP: 從文本中抽取結構化信息的超級資源包
NLP 2018 Highlights：2018自然語言處理技術亮點匯總
NLP Chinese Corpus項目：大規模中文自然語言處理語料
Awesome-Chinese-NLP：中文自然語言處理相關資料
Jiagu：中文深度學習自然語言處理工具
上百種預訓練中文詞向量：Chinese-Word-Vectors
lazynlp：構建大規模語料庫的"懶人"工具箱
關于聊天機器人，這里有一份中文聊天語料庫資源
復旦NLP實驗室NLP上手教程
AI算法工程師手冊
NLP學習新資料：舊金山大學2019夏季自然語言處理課程
中文自然語言處理數據集：ChineseNLPCorpus
【Github】nlp-journey: NLP相關代碼、書目、論文、博文、算法、項目資源鏈接
NeuralNLP-NeuralClassifier：騰訊開源深度學習文本分類工具
【Github】Chinese-poetry: 最全中華古詩詞數據庫
【Github】ML-NOTE：注重數學推導的機器學習算法整理
【Github】All4NLP：自然語言處理相關資源整理
【Github】GPT2-Chinese：中文的GPT2訓練代碼
【Github】nlp-tutorial：TensorFlow 和 PyTorch 實現各種NLP模型
【Github】nlp-roadmap：自然語言處理路相關路線圖（思維導圖）和關鍵詞（知識點）
【Github】TextCluster：短文本聚類預處理模塊 Short text cluster
基于Netty的聯機版坦克大戰
【數據集】OCR_DataSet：有關OCR的數據集并統一標注格式

其他相關文章

神經網絡佛系煉丹手冊
通過Docker部署深度學習項目環境
GPU 顯存不足怎么辦？
大幅減少GPU顯存占用：可逆殘差網絡(The Reversible Residual Network)
AINLP-DBC GPU 使用體驗指南
用 SQL 而不是 Python 處理文本數據
200行寫一個自動微分工具
定個小目標，發它一個億條微博語料
推薦兩份NLP讀書筆記和一份NLTK書籍代碼中文注釋版
微軟深度學習入門教程更新
Gilbert Strang教授的MIT公開課：數據分析、信號處理和機器學習中的矩陣方法
Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜
如何計算兩個文檔的相似度一
如何計算兩個文檔的相似度二
如何計算兩個文檔的相似度三
Hands-on Machine Learning with Scikit-Learn and TensorFlow 學習筆記
感知智能到認知智能中對知識的思考
polyglot：Pipeline 多語言NLP工具
A/B測試的數學原理與深入理解
詳解TensorFlow? GPU 安裝
fastText原理及實踐
中國科學技術大學計算機學院課程資源：USTC-CS-Courses-Resource
那些值得推薦和收藏的線性代數學習資源

公開課、開源書籍或者學習筆記等

認真推薦一份深度學習筆記：簡約而不簡單
自然語言處理經典《Speech and Language Processing》第三版最新版下載（含第二版）
強化學習圣經：《強化學習導論》第二版（附PDF下載）
2019斯坦福CS224n深度學習自然語言處理課程視頻和相關資料分享
CS224N 2019最全20視頻分享：斯坦福大學深度學習自然語言處理課程資源索引
CMU-2020最新《神經網絡自然語言處理》課程視頻+課件+代碼分享（附下載）
宅家追課正當時，李宏毅老師2020新課深度學習與人類語言處理正式開放上線
86歲MIT教授Gilbert Strang的線性代數小課：2020新視野下的線性代數
Springer面向公眾開放電子書籍，附65本數學、編程、機器學習、深度學習、數據挖掘、數據科學等書籍鏈接及打包下載
新書下載 | 面向機器學習的數學（Mathematics for Machine Learning）
【新書】從Word2Vec到BERT的自然語言處理嵌入進展，附下載
機器學習數學全書，1900 頁 PDF 下載
李航老師《統計學習方法（第二版）》清華大學課件完整版下載！
400頁《TensorFlow 2.0 深度學習算法實戰》中文版教材免費下載（附隨書代碼+pdf）
圖文并茂！746頁機器學習筆記等你領取（附下載）
2020最新版《神經網絡與深度學習》中文版更新完畢，pdf開放下載

資源關鍵字

AINLP聊天機器人除了日常搭訕外，還負責回復用戶的日常查詢，所以為一些關注度比較高的文章和NLP資源做了關鍵字和索引，分散在以前的一些文章介紹里：

1、關注AINLP公眾號，后臺回復 “文章、歷史消息、歷史、history、存檔” 任一關鍵字獲取歷史文章存檔消息。

2、回復“正態分布，rickjin, 正態分布前世今生, 正態分布文章, 正太分布, 正太, 正態”任一關鍵字獲取Rickjin正態分布前世今生系列：

正態分布系列文章索引

3、回復“nlp, 自然語言處理，學習自然語言處理，學習nlp, 如何學習nlp，如何學習自然語言處理” 任一關鍵字獲取文章：如何學習自然語言處理

4、回復"slp" 獲取：斯坦福NLP書籍和課程網盤鏈接和密碼

5、回復"slp3" 獲取：自然語言處理綜論英文版第三版及斯坦福NLP課程鏈接和密碼

6、回復"ng" 獲取：Andrew Ng老師課程相關資料鏈接和密碼

7、回復"aic" 獲取：AI Challenger 2018 文本挖掘類競賽相關代碼及解決方案匯總
博客版本持續更新，歡迎提供線索：http://www.52nlp.cn/?p=10998

8、回復"bert" 獲取：BERT相關論文、文章和代碼資源匯總
博客版本持續更新：http://www.52nlp.cn/?p=10870

9、回復"HMM" 獲取：HMM學習最佳范例全文PDF
HMM學習最佳范例全文PDF文檔及相關文章索引

10、回復"Hinton" 獲取：面向機器學習的神經網絡公開課視頻及課件
Geoffrey Hinton 大神面向機器學習的神經網絡公開課及相關視頻資料

11、回復"NLTK" 獲取：NLTK相關資料
Python自然語言處理工具NLTK學習導引及相關資料

12、回復"youhua"獲取：優化相關資料
凸優化及無約束最優化相關資料

13、回復"xiandai"獲取：線性代數相關資料
那些值得推薦和收藏的線性代數學習資源

14、回復"cs224n"獲取：深度學習自然語言處理課程最新視頻：
2019斯坦福CS224n深度學習自然語言處理課程視頻和相關資料分享
斯坦福大學深度學習自然語言處理課程CS224N 2019 全20個視頻分享

15、回復"kuakua"獲取：夸夸語料庫（500條）
為了夸夸聊天機器人，爬了一份夸夸語料庫

16、回復"fenci"獲取：中文分詞相關資源
中文分詞文章索引和分詞數據資源分享

17、回復”tongjixuexi”獲取：李航老師統計學習方法第一版PPT（清華大學深圳研究生院袁春老師精心制作）
李航老師《統計學習方法（第二版）》出版及統計學習方法第一版PPT課件下載

18、回復"nmt"獲取：Philipp Koehn大神的神經網絡機器翻譯學習資料：NMT Book

最后歡迎加入AINLP的自然語言處理技術交流大群及細分技術交流小群，總有一款適合你：

總結

以上是生活随笔為你收集整理的这个自然语言处理“工具”，玩得停不下来的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：卷积神经网络中十大令人拍案叫绝的操作
下一篇：高效利用无标注数据：自监督学习简述