这个自然语言处理“工具”,玩得停不下来
今天推薦一個有趣的自然語言處理公眾號「AINLP」,關注后玩得根本停不下來!AINLP的維護者是我愛自然語言處理(52nlp)博主,他之前在騰訊從事NLP相關的研發工作,目前在一家創業公司帶技術團隊。AINLP公眾號的定位是一個有趣有AI的自然語言處理社區,分享有質有量的NLP技術文章,歡迎關注:
關注「AINLP」公眾號后臺回復可以根據關鍵詞觸發不同的功能,例如,可以直接用來對比分析NLP的相關工具,包括中文分詞、詞性標注、命名實體識別以及情感分析:
也可以用來單獨測試一個獨立的NLP工具,例如斯坦福大學自然語言處理組的最新NLP工具Stanza:
還可以基于詞向量查詢相似詞、相近詞:
AINLP不僅僅可以玩分析查詢,還可以玩自然語言生成,例如對對聯,寫對聯,自動作詩等,包括五言絕句、七言絕句、五言律詩、七言律詩,還有藏頭詩、藏尾詩等:
最后還可以玩狗屁不同文章生成器、彩虹屁生成器、夸夸聊天機器人等:
當然,AINLP公眾號不僅僅有趣,還分享了很多高質量的文章:
如何學習NLP和NLP相關資源
如何學習自然語言處理:一本書和一門課
如何學習自然語言處理:NLP領域經典《自然語言處理綜論》英文版第三版更新
這門斯坦福大學自然語言處理經典入門課,我放到B站了
數學之美中盛贊的 Michael Collins 教授,他的NLP課程要不要收藏?
學自然語言處理,其實更應該學好英語
李紀為博士:初入NLP領域的一些小建議
老宋同學的學習建議和論文:聽說你急缺論文大禮包?
從老宋的角度看,自然語言處理領域如何學習?
劉知遠老師NLP研究入門之道:NLP推薦書目
NLP研究入門之道:自然語言處理簡介
NLP研究入門之道:走近NLP學術界
NLP研究入門之道:如何通過文獻掌握學術動態
NLP研究入門之道:如何寫一篇合格的學術論文
NLP研究入門之道:本科生如何開始科研訓練
自然語言理解難在哪兒?
好的研究想法從哪里來
你是如何了解或者進入NLP這個領域的?
NLP is hard! 自然語言處理太難了系列
騰訊詞向量和相似詞、相似度、詞語游戲系列
相似詞查詢:玩轉騰訊 AI Lab 中文詞向量
玩轉騰訊詞向量:詞語相似度計算和在線查詢
騰訊詞向量實戰:通過Annoy進行索引和快速查詢
玩轉騰訊詞向量:Game of Words(詞語的加減游戲)
詞向量游戲:梅西-阿根廷+葡萄牙=?
騰訊 800 萬中文詞向量 API Demo 搭建
相似詞檢索,近義詞查詢,同義詞大全,這里不僅僅限于中文
NLP相關工具及在線測試(公眾號對話測試)
五款中文分詞工具在線PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP
中文分詞工具在線PK新增:FoolNLTK、LTP、StanfordCoreNLP
Python中文分詞工具大合集:安裝、使用和測試
八款中文詞性標注工具使用及在線測試
百度深度學習中文詞法分析工具LAC試用之旅
來,試試百度的深度學習情感分析工具
AINLP公眾號新增SnowNLP情感分析模塊
斯坦福大學NLP組Python深度學習自然語言處理工具Stanza試用
中文命名實體識別工具(NER)哪家強?
自動對聯及作詩機
風云三尺劍,花鳥一床書---對聯數據集和自動對聯機器人
自動對聯活動獲獎結果以及機器對聯賞析
"自動作詩機"上線,代碼和數據都是公開的
鼠年春節,用 GPT-2 自動寫對聯和對對聯
用 GPT-2 自動寫詩,從五言絕句開始
自動作詩機&藏頭詩生成器:五言、七言、絕句、律詩全了
僅供娛樂,藏尾詩生成器來了
夸夸聊天機器人及其他技能
一行Python代碼實現夸夸聊天機器人
為了夸夸聊天機器人,爬了一份夸夸語料庫
夸夸聊天機器人升級:從隨機到準個性化
來,試試語音(識別)聊天(機器人)
來,試試成語接龍
推薦一份中文數據,來試試漢字、詞語、成語、歇后語在線檢索
AINLP公眾號新增"狗屁不通文章生成器"接口
來,試試彩虹屁生成器
BERT及預訓練模型相關文章
張俊林博士系列解讀:
放棄幻想,全面擁抱Transformer:自然語言處理三大特征抽取器(CNN/RNN/TF)比較
預訓練在自然語言處理的發展: 從Word Embedding到BERT模型
從Word Embedding到Bert模型—自然語言處理中的預訓練技術發展史
Bert時代的創新(應用篇):Bert在NLP各領域的應用進展
效果驚人的GPT 2.0模型:它告訴了我們什么
XLNet:運行機制及和Bert的異同比較
高開遠同學系列:
BERT源碼分析PART I
BERT源碼分析PART II
BERT源碼分析PART III
站在BERT肩膀上的NLP新秀們(PART I)
站在BERT肩膀上的NLP新秀們(PART II)
站在BERT肩膀上的NLP新秀們(PART III)
Nvidia League Player:來呀比到天荒地老
Dive into BERT:語言模型與知識
當BERT遇上知識圖譜
中文預訓練模型ERNIE超詳細使用指南
老宋的茶書會系列:
聽說你還沒讀過 Bert 源碼?
Bert 之后:預訓練語言模型與自然語言生成
就最近看的paper談談預訓練語言模型發展
Bert 改進:如何融入知識
ALBERT 告訴了我們什么?
太子長琴同學系列:
BERT論文筆記
XLNet 論文筆記
ERNIE Tutorial(論文筆記 + 實踐指南)
DistilBERT Understanding
邱震宇同學系列:
模型壓縮實踐系列之——layer dropout
模型壓縮實踐系列之——bert-of-theseus,一個非常親民的bert壓縮方法
模型壓縮實踐收尾篇——模型蒸餾以及其他一些技巧實踐小結
張貴發同學系列:
一步步理解BERT
最新語言表示方法XLNet
深度剖析知識增強語義表示模型——ERNIE
艾力亞爾同學的文章:
NLP - 基于 BERT 的中文命名實體識別(NER)
NLP - BERT/ERNIE 文本分類和部署
SunYanCN同學的文章:
詳解BERT閱讀理解
簡單高效的Bert中文文本分類模型開發和部署
其他預訓練模型相關:
BERT相關論文、文章和代碼資源匯總
12個NLP預訓練模型的學習筆記
transformer-XL與XLNet筆記
Reformer: The Efficient Transformer
逆向而行,中文輕量級預訓練模型的探索之路
【NLP】ALBERT粗讀(李如同學)
BERT 的演進和應用
吳金龍博士的解讀:BERT時代與后時代的NLP
谷歌BERT模型深度解析
BERT_Paper_Chinese_Translation: BERT論文中文翻譯版
【Github】BERT-train2deploy:BERT模型從訓練到部署
BERT/注意力機制/Transformer/遷移學習NLP資源大列表:awesome-bert-nlp
NLP中的詞向量對比:word2vec/glove/fastText/elmo/GPT/bert
中文預訓練ALBERT模型來了:小模型登頂GLUE,Base版模型小10倍速度快1倍
超小型bert橫空出世:訓練和預測提速10倍
RoBERTa for Chinese:大規模中文預訓練RoBERTa模型
中文語言理解基準測評(chineseGLUE)來了,公開征集數據集進行中
CLUECorpus2020:可能是史上最大的開源中文語料庫以及高質量中文預訓練模型集合
最簡單的BERT模型調用方法
【Github】BERT-NER-Pytorch:三種不同模式的BERT中文NER實驗
中文分詞
中文分詞文章索引和分詞數據資源分享
自然語言理解太難了之中文分詞八級測試
中文分詞工具評估:chinese-segmentation-evaluation
簡單有效的多標準中文分詞
命名實體識別
【論文筆記】命名實體識別論文
一文詳解深度學習在命名實體識別(NER)中的應用
中文NER任務實驗小結報告——深入模型實現細節
CLUENER2020:中文細粒度命名實體識別數據集來了
關系提取
關系提取簡述
【論文】Awesome Relation Classification Paper(關系分類)(PART I)
【論文】Awesome Relation Classification Paper(關系分類)(PART II)
【論文】Awesome Relation Extraction Paper(關系抽取)(PART III)
【論文】Awesome Relation Extraction Paper(關系抽取)(PART IV)
【論文】Awesome Relation Extraction Paper(關系抽取)(PART V)
文本分類/情感分析
幾個可作為Baseline的文本分類模型
清華THUNLP多標簽分類論文筆記:基于類別屬性的注意力機制解決標簽不均衡和標簽相似問題
【論文串燒】基于特定實體的文本情感分類總結(PART I)
基于特定實體的文本情感分類總結(PART II)
基于特定實體的文本情感分類總結(PART III)
深度學習實踐:從零開始做電影評論文本情感分析
5個例子,秒懂分類算法(達觀數據王子豪)
NLP - 15 分鐘搭建中文文本分類模型
文本摘要
拋開模型,探究文本自動摘要的本質——ACL2019 論文佳作研讀系列
文本自動摘要任務的“不完全”心得總結
BottleSum——文本摘要論文系列解讀
文本自動摘要任務的“不完全”心得總結番外篇——submodular函數優化
文本摘要(text summarization)最新研究熱點、發展趨勢,里程碑論文推薦
2015-2019年摘要模型(Summarization Model)發展綜述(一)
2015-2019年摘要模型(Summarization Model)發展綜述(二)
真正理解指針生成網絡——Summarization with Pointer-Generator Networks
對話系統/聊天機器人
生成式對話seq2seq:從rnn到transformer
QA問答系統中的深度學習技術實現
從產品完整性的角度淺談chatbot
來談談那些很棒的檢索式Chatbots論文(一)
來談談那些很棒的檢索式Chatbots論文(二)
Rasa介紹:對話系統、產品與技術
基于RASA的task-orient對話系統解析(一)
基于RASA的task-orient對話系統解析(二)——對話管理核心模塊
基于RASA的task-orient對話系統解析(三)——基于rasa的會議室預定對話系統實例
Rasa入坑指南一:初識Rasa
Rasa 入坑指南二:基于 Rasa 構建天氣查詢機器人
做對話機器人的各家企業,都在關注哪些問題
從互聯網爬蟲、自動駕駛到對話機器人,什么是Semantic(語義)?
談談文本匹配和多輪檢索
知識圖譜
“原子”因果常識圖譜
知識圖譜存儲與查詢:自然語言記憶模塊(NLM)
知識圖譜從哪里來:實體關系抽取的現狀與未來
閱讀理解
閱讀理解之(bidaf)雙向注意力流網絡
陳丹琦博士論文翻譯:神經閱讀理解與超越(Neural Reading Comprehension and Beyond)
機器翻譯
Philipp Koehn大神的神經網絡機器翻譯學習資料:NMT Book
清華大學NLP組整理的機器翻譯論文閱讀清單
機器翻譯中的強化學習:優點、缺點以及不足
文本生成
電腦也能寫出連貫的文章嗎?
推薦系統
當我們談論“推薦系統”時在談論什么?
推薦系統中的矩陣分解技術
受限玻爾茲曼機原理及在推薦系統中的應用
推薦系統召回四模型之:全能的FM模型
推薦系統召回四模型之二:沉重的FFM模型
推薦系統技術演進趨勢:從召回到排序再到重排
【Github】深度學習在推薦系統中的應用及論文小結
論文筆記
用膩了 CRF,試試 LAN 吧?
Meta-Learning:Learning to Learn and Applications
可解釋性論文閱讀筆記1-Tree Regularization
可解釋性論文閱讀筆記2-Leveraging Language Models
使用Python復現SIGKDD2017的PAMAE算法(并行k-medoids算法)
From Word Embeddings To Document Distances 閱讀筆記
Node2Vec 論文+代碼筆記
競賽相關
AI Challenger 2017 奇遇記
AI Challenger 2018 簡記
AI Challenger 2018 文本挖掘類競賽相關代碼及解決方案匯總
AI Challenger 2018 機器翻譯冠軍參賽總結
AI Challenger_2018英中文本機器翻譯_參賽小結
AI Challenger 2018 冠軍 PPT 分享---細粒度情感分析賽道
AI Challenger 2018 冠軍代碼分享---細粒度情感分析賽道
AI Challenger 2018 第4名PPT分享---細粒度情感分析賽道
提供一個10分鐘跑通 AI Challenger 細粒度用戶評論情感分析的fastText Baseline
FlyAI算法競賽平臺初體驗
法研杯要素識別第二名方案總結:多標簽分類實踐與效果對比
2019法研杯比賽--閱讀理解任務第4名團隊參賽總結
法研杯cail2019閱讀理解比賽記錄(第5名團隊分享)
【Github】2019年達觀信息提取比賽第九名代碼和答辯PPT
CCF BDCI2019 金融信息負面及主體判定 冠軍方案解析
flyai醫療智能問答比賽小結
【Github】Data Competition Top Solution: 數據競賽top解決方案開源整理
求職相關
2021 校招算法崗, 勸退還是繼續
EE轉CS,拿了多個行業offer,最終選擇NLP算法崗的同學的秋招總結
14種模式解決面試算法編程題(PART I)
14種模式解決面試算法編程題(PART II)
2020秋招總結:凡是過往,皆為序章
【Github】NLPer-Interview: NLP 算法工程師相關的面試題
【Github】ML-NLP:機器學習、NLP面試中常考到的知識點和代碼實現
開源項目及資源
中文自然語言處理相關的開放任務,數據集,以及當前最佳結果
【Github】nlp-paper: 按主題分類的自然語言處理文獻大列表
CLUEDatasetSearch:搜索所有中文數據集,附常用英文數據集
用于中文閑聊的GPT2模型:GPT2-chitchat
中文歌詞生成,缺不缺語料?這里有一個開源項目值得推薦
深度學習資源大列表:關于深度學習你需要了解的一切
funNLP: 從文本中抽取結構化信息的超級資源包
NLP 2018 Highlights:2018自然語言處理技術亮點匯總
NLP Chinese Corpus項目:大規模中文自然語言處理語料
Awesome-Chinese-NLP:中文自然語言處理相關資料
Jiagu:中文深度學習自然語言處理工具
上百種預訓練中文詞向量:Chinese-Word-Vectors
lazynlp:構建大規模語料庫的"懶人"工具箱
關于聊天機器人,這里有一份中文聊天語料庫資源
復旦NLP實驗室NLP上手教程
AI算法工程師手冊
NLP學習新資料:舊金山大學2019夏季自然語言處理課程
中文自然語言處理數據集:ChineseNLPCorpus
【Github】nlp-journey: NLP相關代碼、書目、論文、博文、算法、項目資源鏈接
NeuralNLP-NeuralClassifier:騰訊開源深度學習文本分類工具
【Github】Chinese-poetry: 最全中華古詩詞數據庫
【Github】ML-NOTE:注重數學推導的機器學習算法整理
【Github】All4NLP:自然語言處理相關資源整理
【Github】GPT2-Chinese:中文的GPT2訓練代碼
【Github】nlp-tutorial:TensorFlow 和 PyTorch 實現各種NLP模型
【Github】nlp-roadmap:自然語言處理路相關路線圖(思維導圖)和關鍵詞(知識點)
【Github】TextCluster:短文本聚類預處理模塊 Short text cluster
基于Netty的聯機版坦克大戰
【數據集】OCR_DataSet:有關OCR的數據集并統一標注格式
其他相關文章
神經網絡佛系煉丹手冊
通過Docker部署深度學習項目環境
GPU 顯存不足怎么辦?
大幅減少GPU顯存占用:可逆殘差網絡(The Reversible Residual Network)
AINLP-DBC GPU 使用體驗指南
用 SQL 而不是 Python 處理文本數據
200行寫一個自動微分工具
定個小目標,發它一個億條微博語料
推薦兩份NLP讀書筆記和一份NLTK書籍代碼中文注釋版
微軟深度學習入門教程更新
Gilbert Strang教授的MIT公開課:數據分析、信號處理和機器學習中的矩陣方法
Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜
如何計算兩個文檔的相似度一
如何計算兩個文檔的相似度二
如何計算兩個文檔的相似度三
Hands-on Machine Learning with Scikit-Learn and TensorFlow 學習筆記
感知智能到認知智能中對知識的思考
polyglot:Pipeline 多語言NLP工具
A/B測試的數學原理與深入理解
詳解TensorFlow? GPU 安裝
fastText原理及實踐
中國科學技術大學計算機學院課程資源:USTC-CS-Courses-Resource
那些值得推薦和收藏的線性代數學習資源
公開課、開源書籍或者學習筆記等
認真推薦一份深度學習筆記:簡約而不簡單
自然語言處理經典《Speech and Language Processing》第三版最新版下載(含第二版)
強化學習圣經:《強化學習導論》第二版(附PDF下載)
2019斯坦福CS224n深度學習自然語言處理課程視頻和相關資料分享
CS224N 2019最全20視頻分享:斯坦福大學深度學習自然語言處理課程資源索引
CMU-2020最新《神經網絡自然語言處理》課程視頻+課件+代碼分享(附下載)
宅家追課正當時,李宏毅老師2020新課深度學習與人類語言處理正式開放上線
86歲MIT教授Gilbert Strang的線性代數小課:2020新視野下的線性代數
Springer面向公眾開放電子書籍,附65本數學、編程、機器學習、深度學習、數據挖掘、數據科學等書籍鏈接及打包下載
新書下載 | 面向機器學習的數學(Mathematics for Machine Learning)
【新書】從Word2Vec到BERT的自然語言處理嵌入進展,附下載
機器學習數學全書,1900 頁 PDF 下載
李航老師《統計學習方法(第二版)》清華大學課件完整版下載!
400頁《TensorFlow 2.0 深度學習算法實戰》中文版教材免費下載(附隨書代碼+pdf)
圖文并茂!746頁機器學習筆記等你領取(附下載)
2020最新版《神經網絡與深度學習》中文版更新完畢,pdf開放下載
資源關鍵字
AINLP聊天機器人除了日常搭訕外,還負責回復用戶的日常查詢,所以為一些關注度比較高的文章和NLP資源做了關鍵字和索引,分散在以前的一些文章介紹里:
1、關注AINLP公眾號,后臺回復 “文章、歷史消息、歷史、history、存檔” 任一關鍵字獲取歷史文章存檔消息。
2、回復“正態分布,rickjin, 正態分布前世今生, 正態分布文章, 正太分布, 正太, 正態”任一關鍵字獲取Rickjin正態分布前世今生系列:
正態分布系列文章索引
3、回復“nlp, 自然語言處理,學習自然語言處理,學習nlp, 如何學習nlp,如何學習自然語言處理” 任一關鍵字獲取文章:如何學習自然語言處理
4、回復"slp" 獲取:斯坦福NLP書籍和課程網盤鏈接和密碼
5、回復"slp3" 獲取:自然語言處理綜論英文版第三版及斯坦福NLP課程鏈接和密碼
6、回復"ng" 獲取:Andrew Ng老師課程相關資料鏈接和密碼
7、回復"aic" 獲取:AI Challenger 2018 文本挖掘類競賽相關代碼及解決方案匯總
博客版本持續更新,歡迎提供線索:http://www.52nlp.cn/?p=10998
8、回復"bert" 獲取:BERT相關論文、文章和代碼資源匯總
博客版本持續更新:http://www.52nlp.cn/?p=10870
9、回復"HMM" 獲取:HMM學習最佳范例全文PDF
HMM學習最佳范例全文PDF文檔及相關文章索引
10、回復"Hinton" 獲取:面向機器學習的神經網絡公開課視頻及課件
Geoffrey Hinton 大神面向機器學習的神經網絡公開課及相關視頻資料
11、回復"NLTK" 獲取:NLTK相關資料
Python自然語言處理工具NLTK學習導引及相關資料
12、回復"youhua"獲取:優化相關資料
凸優化及無約束最優化相關資料
13、回復"xiandai"獲取:線性代數相關資料
那些值得推薦和收藏的線性代數學習資源
14、回復"cs224n"獲取:深度學習自然語言處理課程最新視頻:
2019斯坦福CS224n深度學習自然語言處理課程視頻和相關資料分享
斯坦福大學深度學習自然語言處理課程CS224N 2019 全20個視頻分享
15、回復"kuakua"獲取:夸夸語料庫(500條)
為了夸夸聊天機器人,爬了一份夸夸語料庫
16、回復"fenci"獲取:中文分詞相關資源
中文分詞文章索引和分詞數據資源分享
17、回復”tongjixuexi”獲取:李航老師統計學習方法第一版PPT(清華大學深圳研究生院袁春老師精心制作)
李航老師《統計學習方法(第二版)》出版及統計學習方法第一版PPT課件下載
18、回復"nmt"獲取:Philipp Koehn大神的神經網絡機器翻譯學習資料:NMT Book
最后歡迎加入AINLP的自然語言處理技術交流大群及細分技術交流小群,總有一款適合你:
總結
以上是生活随笔為你收集整理的这个自然语言处理“工具”,玩得停不下来的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 卷积神经网络中十大令人拍案叫绝的操作
- 下一篇: 高效利用无标注数据:自监督学习简述