标注工具_语料标注工具(3)
今天再詳細介紹一下Prodigy工具和YEDDA工具。
Prodigy工具
支持實體標注,分類標注,情感標注,但是都是英文的。有一個基于Prodigy的中文github項目。Prodigy官方項目地址:https://prodi.gy/ 。由于其是收費的,所以沒有必要再去深究了。這里給出它的文本分類標注界面和實體識別標注界面。
這里要強調一下,那個所謂的基于Prodigy思想的中文版根本就不能用,github也很久沒更新了,完全就是花架子,issuses里的內容也基本是有問無答,如果有哪個大神把它調出來了,歡迎投稿,或者告訴我。deepwel/Chinese-Annotator,居然還有700個星,真是沒有天理。
YEDDA
YEDDA可以進行chunk/entity/event三種標注任務。它使用tkinter開發,當前只支持在Python2.7下運行。對外提供兩種用戶界面,一種是標注員界面(終端執行python YEDDA.py),一種是管理員界面(終端執行python YEDDA_Admin.py)。標注員界面用于給句子做標注,管理員界面提供針對同一文件的不同人員標注結果的對比等功能。標注界面如下圖所示
其中的按鈕的大致功能為`Open`按鈕用于打開待校對的文件。`ReMap`用于將用戶設置的標注快捷鍵更新到當前配置文件。`NewMap`按鈕用于將用戶設置的標注快捷鍵保存到新的配置文件。`RMOn`是打開機器自動標注功能,`RMOff`是關閉機器自動標注功能。`Export`到處當前標注后的文本。`Quit`退出當前標注。字母`A`,`B`,`C`,`D`,`E`,`F`,`G`分別對應右側所列功能的快捷鍵,比如Location地名的快捷鍵為`D`。`Cursor`表示當前光標在文本中的為止,`RMModel`指的是是否啟動了機器自動標注。`Map Templates`快捷鍵配置文件名。
YEDDA的缺點有:
(1)可標記種類數只有7種
(2)沒有情感類別或分類類別的標記功能
(3)一次性將文本內容全部展示出來不利于標注者標記
(4)沒有分詞功能也不能使用自己的分詞器
(5)沒有類別預測功能
(6)只能運行在Python2.7版本下。
可改進的點有:
(1)添加類別預測展示及標注功能
(2)添加標注進度展示區
(3)添加分詞功能
(4)添加實體識別功能
(5)導出時,計算本次標注后系統預測的準確率
github地址:
jiesutd/YEDDA?github.com總結
以上是生活随笔為你收集整理的标注工具_语料标注工具(3)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 传入json对象_【Python基础】可
- 下一篇: 点击更新没反应_Edge浏览器双击无反应