【Paper】Few-Shot Charge Prediction with Discriminative Legal Attributes
傳送門:
- paper——COLING2018 paper、
- codes
文章目錄
- Abstract
- 1 Introduction
- 2 Related Work
- 2.1 Zero-Shot Classification
- 2.2 Charge Prediction
- 3 Method
- 3.1 Discriminative Charge Attributes
- 3.2 Formalizations
- 3.2.1 Charge Prediction
- 3.2.2 Attributes Prediction
- 3.3 Fact Encoder
- 3.4 Attentive Attribute Predictor
- 3.5 Output Layer
- 3.6 Optimization
- 4 Experiments
- 4.1 Dataset Construction
- 4.2 Attribute Selection and Annotation
- 4.3 Baselines
- 4.4 Experiment Settings and Evaluation Metrics
- 4.5 Results and Analysis
- 4.6 Ablation Test
- 4.7 Case Study
- 5 Conclusion
Abstract
- Automatic charge prediction:根據(jù)刑事案件(criminal cases )的事實(shí)描述預(yù)測最終的charges,在法律助理系統(tǒng)中起著至關(guān)重要的作用。
- 存在問題:(1)現(xiàn)有的charge prediction工作可以對那些高頻charges充分發(fā)揮作用,但尚不能在有限案件下預(yù)測出 few-shot charges。(2)存在許多事實(shí)描述相當(dāng)相似的charges pairs。
- 解決方法:引入了一些charge的區(qū)分屬性(discriminative attributes),作為事實(shí)描述和charges用之間的內(nèi)部映射。這些屬性為few-shot charges提供額外的信息,及用于區(qū)分confusing charges(混淆罪名)的有效標(biāo)志。更具體地說,提出一個attribute-attentive charge prediction 模型,以同時推斷 attributes 和 charges 。
- 實(shí)驗(yàn)結(jié)果:在真實(shí)數(shù)據(jù)集上比 state-of-the-art 有顯著和持續(xù)的提升。具體來講,本方法在 few-shot 場景中優(yōu)于其他 baselines 超過 50%。
1 Introduction
- 目標(biāo):訓(xùn)練機(jī)器judge,以確定刑事案件中被告的最終charges(指控)(eg: 盜竊、搶劫或違反交通規(guī)章罪)。
- 作用:它是法律判斷預(yù)測(legal judgment prediction) 的典型子任務(wù),在法律輔助系統(tǒng)中起著重要的作用,可以造福許多實(shí)際應(yīng)用。例如:為法律人士提供方便的參考以提升工作效率;為不熟悉法律術(shù)語和復(fù)雜程序的普通人提供法律咨詢。
- 現(xiàn)狀:大多數(shù)工作以文本分類為框架。
- 早期:側(cè)重于從text或case profiles中提取有效特征,但是需要耗費(fèi)手工設(shè)計(jì)特征和標(biāo)準(zhǔn)訓(xùn)練數(shù)據(jù)的人力,且難以擴(kuò)展到其他場景。
- 近期:應(yīng)用深度神經(jīng)網(wǎng)絡(luò)來建模legal documents,例如:Luo et al. (2017) 提出 attention-based 的神經(jīng)網(wǎng)絡(luò),通過整合相關(guān)law articles進(jìn)行charge prediction。
- 兩個主要挑戰(zhàn):
- Few-Shot Charges:
- 數(shù)據(jù)不平衡:在實(shí)際中,各種charges的案例數(shù)量高度不平衡。根據(jù)我們在一個真實(shí)數(shù)據(jù)的統(tǒng)計(jì),最常見的10項(xiàng) charges (盜竊、故意傷害和交通違章行為) 涵蓋78.1%的案件。相反,最低頻 50 項(xiàng)charges (倒賣文物,擾亂法院秩序,逃稅) 只涵蓋不到0.5%的案件,而大多數(shù)這些charges只擁有約10個相關(guān)案件。
- 先前的工作通常側(cè)重于這些常見的charges,而忽略 few-shot Charges。雖然深度神經(jīng)模型促進(jìn)了基于特征工程的 charge prediction 方法,但由于需要足夠的訓(xùn)練數(shù)據(jù),它們無法很好地處理 few-shot charges。
- 如何在 limited cases情況下處理這些 charges 對于建立魯棒而有效的 charge prediction 系統(tǒng)至關(guān)重要。
- Confusing Charges:
- 存在許多易混淆的 charges pairs,對于每個易混淆的 charges pairs兩項(xiàng) charges 的定義在核實(shí)具體行為時才不同,而相應(yīng)案件下的情況通常相似。
- ==》如何捕捉區(qū)分混淆 charges 的關(guān)鍵因素是 charge prediction 的另一個挑戰(zhàn)。
- Few-Shot Charges:
- 解決方法:
- 引入 charges 具有區(qū)分性的 legal attributes (法律屬性),并將這些屬性作為fact與charges之間的內(nèi)部映射。更具體地說,選擇 10 個具有代表性的charges屬性,包括:暴力、盈利目的、買賣等。之后,我們進(jìn)行低成本的類別級注釋,即對每個charge,標(biāo)注每個屬性的值(包括yes、no 或 not available),此注釋指示屬性是否是一個charge的必要條件。
- 結(jié)合charges的屬性注釋,提出了一種多任務(wù)學(xué)習(xí)框架,以同時預(yù)測每個案例的屬性和charges。 在該模型中,我們使用attribute attention mechanism (屬性注意力機(jī)制) 來捕捉與特定屬性相關(guān)的關(guān)鍵事實(shí)信息。在那之后,我們將這些 attribute-aware(屬性感知)表示 與 attribute-free(無屬性)事實(shí)表示 相結(jié)合,以預(yù)測最終charges。
- 引入 legal attributes 的兩個原因:(1) 提供有關(guān)如何區(qū)分混淆charges的明確知識;(2) 這些屬性由所有charges共享,并且知識可以從high-frequency charges 轉(zhuǎn)換為 low-frequency charges。即使對于few-shot charges,也可學(xué)習(xí)用于預(yù)測的有效 attribute-aware 表示。
- 實(shí)驗(yàn):驗(yàn)證 few-shot 和 confusing charges 的有效性,在三個真實(shí)的中國刑事案件數(shù)據(jù)集實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本方法在所有數(shù)據(jù)集和評估指標(biāo)上可顯著并持續(xù)優(yōu)于 state-of-the-art 模型。值得注意的是,我們的模型在 few-shot charges 方面優(yōu)于其他baselines 50% 以上。
- 三方面貢獻(xiàn):
- 第一個關(guān)注 charge prediction 中的 few-shot 和 confusing 問題。 并首次在 charge prediction 任務(wù)中引入 legal attributes。
- 提出一個新穎的多任務(wù)學(xué)習(xí)框架,共同推斷案件的屬性和charges。具體來講,使用 attribute attention mechanism 來學(xué)習(xí) 屬性感知(attribute-aware) 的事實(shí)表示。
- 在幾個真實(shí)數(shù)據(jù)集上進(jìn)行有效實(shí)驗(yàn),本方法顯著優(yōu)于其他 baselines 并在 few-shot charges 提升 50%。
2 Related Work
2.1 Zero-Shot Classification
我們的工作與CV中的 Zero-Shot Classification(零樣本分類) 有關(guān)。
- attribute-based 的模型:由于屬性可在不同類之間共享并且可以提供中間表示,因此已經(jīng)提出了許多 attribute-based 的模型。
- Lampert et al. (2014)介紹了direct attribute prediction(DAP) 和 indirect attribute prediction(IAP),并提出 attribute classifiers,它可以預(yù)先訓(xùn)練,在尋找新的合適的類別時不需要重新訓(xùn)練。
- Akata et al. (2013) 提出將基于屬性的分類任務(wù)轉(zhuǎn)化為 label-embedding 任務(wù)。
- Jayaraman and Grauman (2014) 引入隨機(jī)森林方法,stress the unreliability of attribute prediction for unseen classes(強(qiáng)調(diào)看不見類別的屬性預(yù)測的不可靠性)。他們還將其擴(kuò)展到few-shot場景。
- 其他外部信息
- Elhoseiny et al. (2014) 利用類別標(biāo)簽的文字描述在文本特征與視覺特征之間傳輸知識。
- 應(yīng)用:目標(biāo)識別、行為識別、事件識別
2.2 Charge Prediction
- 早期階段:
- 例如:Kort (1957) 使用定量方法(quantitative methods) 通過計(jì)算事實(shí)元素的數(shù)值來預(yù)測判決;Nagel (1963) 利用相關(guān)分析對重新分配的案例做出預(yù)測;Keown (1980) 引入了用于法律預(yù)測的數(shù)學(xué)模型,如線性模型、KNN。
- 評價:這些方法通常是數(shù)學(xué)或定量的,并且它們僅限于標(biāo)簽很少的小型數(shù)據(jù)集。
- 機(jī)器學(xué)習(xí)階段:視為一個文本分類任務(wù)來考慮。
- 一些工作通常側(cè)重于從案例事實(shí)中提取特征。Lin et al. (2012)獲取 21 個legal factor labels (法律因素標(biāo)簽) 用于案件分類。Mackaay and Robillard (1974) 提取
- 評價:這些方法只提取淺層文本特征或手工標(biāo)簽,難以擴(kuò)展到較大的數(shù)據(jù)集上;此外,不能捕捉類似犯罪之間的 subtle difference(微妙區(qū)別),因此,當(dāng)類別數(shù)量增加、出現(xiàn)更多類似的犯罪時,它們的表現(xiàn)就不好了。
- 神經(jīng)網(wǎng)絡(luò)階段:Luo et al. (2017) 提出一個 hierarchical attentional network (分層注意力網(wǎng)絡(luò)) 同時預(yù)測 charges 并提取相關(guān) articles。然而,該方法僅關(guān)注高頻charges,而沒有關(guān)注 few-shot and confusing ones.
==》解決方法:提出一個基于注意力的神經(jīng)網(wǎng)絡(luò)模型,通過引入干具有區(qū)分性的法律屬性。
3 Method
本文提出 few-shot 神經(jīng)網(wǎng)絡(luò)模型,使用一個統(tǒng)一的框架對charge prediction任務(wù)和 legal attribute prediction任務(wù)同時建模。
3.1 Discriminative Charge Attributes
為了區(qū)分易混淆的 charges 并為 few-shot charges 提供額外信息,針對中國刑法中的所有charges,我們引入 10 個具有區(qū)分性的屬性,圖表1所示。對于每個 (charge, attribute) pair,它會標(biāo)記為 Yes、No 或 NA。
- 例如:過失殺人(manslaughter)罪名 在 故意犯罪(Intentional Crime) 屬性上標(biāo)記為 No,在死亡(Death)上為 Yes,在國家機(jī)關(guān)(State Organ)上為NA。注意:具體案件的事實(shí)調(diào)查結(jié)果只能標(biāo)記為 Yes 或 No。
判定某人犯有某種罪行時,事實(shí)應(yīng)符合對特定指控的描述。因此,對于特定屬性,特定案件的標(biāo)簽和相應(yīng)charge的標(biāo)簽應(yīng)相同或不沖突。換句話說,對于某個屬性,案件和charge的標(biāo)簽只能是 (Yes, Yes), (No, No), (Yes, NA) 或 (No, NA)。
- 實(shí)現(xiàn):我們進(jìn)行低成本注釋,并手動注釋 149 種不同charges的屬性。然后,我們?yōu)槊總€案件分配其相應(yīng)charge的相同屬性。
3.2 Formalizations
3.2.1 Charge Prediction
一個案件的事實(shí)描述可當(dāng)作一個單詞序列(word sequence) x={x1,x2,...,xn}\mathbf{x}=\{x_1,x_2,...,x_n\}x={x1?,x2?,...,xn?},其中 nnn 表示序列長度,xi∈Tx_i\in{T}xi?∈T,TTT是a fixed vocabulary(固定詞匯表)。給定事實(shí)描述 x\mathbf{x}x, charge prediction任務(wù)是預(yù)測一個 charge y∈Yy\in{Y}y∈Y,其中 Y{Y}Y 是一個charge集合。
3.2.2 Attributes Prediction
attributes prediction任務(wù)可視為一個二分類任務(wù)。輸入與charge prediction任務(wù)一樣都是事實(shí)描述 x\mathbf{x}x,其目標(biāo)是根據(jù)事實(shí)預(yù)測屬性的 fact-findings p={p1,p2,...,pk}\mathbf{p}=\{p_1,p_2,...,p_k\}p={p1?,p2?,...,pk?}。其中,kkk 是所選擇屬性的數(shù)量,pi∈{0,1}p_i\in{\{0,1\}}pi?∈{0,1} 是一個確定屬性的標(biāo)簽。
3.3 Fact Encoder
如圖2所示,fact encoder 將離散輸入序列編碼為連續(xù)隱藏狀態(tài)。由于可以提取語義含義,采用 LSTM 作為 fact encoder。LSTM是RNN的一個變體,它可以捕捉長期依賴關(guān)系。
- 首先,LSTM 編碼器將每個單詞 xi∈xx_i\in{\mathbf{x}}xi?∈x 轉(zhuǎn)換為其word embedding xi∈Rd{\mathbf{x}_i}\in{\mathbb{R}^d}xi?∈Rd,其中 ddd 是 word embedding 的維度。
- 之后,所得到的相關(guān) word embedding 序列作為 x^={x1,x2,...,xn}\hat\mathbf{x}=\{\mathbf{x}_1,\mathbf{x}_2,...,\mathbf{x}_n\}x^={x1?,x2?,...,xn?}。在每個時間 step t∈[1,n]t\in{[1,n]}t∈[1,n],LSTM cell 輸入 xt\mathbf{x}_txt?,重新計(jì)算 memory cell ct\mathbf{c}_tct?,輸出 new hidden state ht\mathbf{h}_tht? 如下:
ft=σ(Wfxt+Ufht?1+bf),it=σ(Wixt+Uiht?1+bi),ot=σ(Woxt+Uoht?1+bo),c^t=tanh?(Wcxt+Ucht?1+bc),ct=ft⊙ct?1+it⊙c^t,ht=ot⊙tanh?(ct)(1)\begin{aligned} \mathbf{f}_t &= \sigma{(W_f\mathbf{x}_t+\mathbf{U}_{f}\mathbf{h}_{t-1}+\mathbf{b}_{f})}, \\ \mathbf{i}_{t} &= \sigma{(W_i\mathbf{x}_t+\mathbf{U}_{i}\mathbf{h}_{t-1}+\mathbf{b}_{i})}, \\ \mathbf{o}_{t} &= \sigma{(W_o\mathbf{x}_t+\mathbf{U}_{o}\mathbf{h}_{t-1}+\mathbf{b}_{o})}, \\ \hat\mathbf{c}_{t} &= \tanh{(W_c\mathbf{x}_t+\mathbf{U}_{c}\mathbf{h}_{t-1}+\mathbf{b}_{c})}, \\ \mathbf{c}_{t} &= \mathbf{f}_{t}\odot \mathbf{c}_{t-1}+\mathbf{i}_{t}\odot \hat\mathbf{c}_{t}, \\ \mathbf{h}_{t} &= \mathbf{o}_{t} \odot \tanh(\mathbf{c}_t) \tag{1} \end{aligned}ft?it?ot?c^t?ct?ht??=σ(Wf?xt?+Uf?ht?1?+bf?),=σ(Wi?xt?+Ui?ht?1?+bi?),=σ(Wo?xt?+Uo?ht?1?+bo?),=tanh(Wc?xt?+Uc?ht?1?+bc?),=ft?⊙ct?1?+it?⊙c^t?,=ot?⊙tanh(ct?)?(1)
其中,ft,itand?ot\mathbf{f}_t, \mathbf{i}_t \text{ and } \mathbf{o}_tft?,it??and?ot? 分別表示 forget gate、input gate 和 output gate。⊙\odot⊙ 表示按元素乘法,σ\sigmaσ 表示 sigmoid 激活函數(shù)。W,Uand?bW, U \text{ and } bW,U?and?b分別是權(quán)重矩陣和偏置向量。處理完所有時間 steps 后,我們得到一個hidden state序列 h={h1,h2,...,hn}\mathbf{h}=\{\mathbf{h}_1,\mathbf{h}_2,...,\mathbf{h}_n\}h={h1?,h2?,...,hn?}。 - 最后,將其輸入一個max-pooling層來獲得 無屬性(attribute-free) 表示 e=[e1,...,es]\mathbf{e}=[e_1,...,e_s]e=[e1?,...,es?] :
ei=max?(h1,i,...,hn,i),?i∈[1,s](2)e_i=\max(\mathbf{h}_{1,i},...,\mathbf{h}_{n,i}), \forall{i}\in{[1,s]}\tag{2}ei?=max(h1,i?,...,hn,i?),?i∈[1,s](2)
其中,sss 表示 hidden states 的維數(shù)。
3.4 Attentive Attribute Predictor
給定事實(shí)描述 x\mathbf{x}x,attribute predictor 要預(yù)測每個屬性的標(biāo)簽。受(Yang et al., 2016)啟發(fā),使用一個 attention mechanism 從事實(shí)中選擇相關(guān)信息并生成 attribute-aware(屬性感知) 事實(shí)表示。
如圖2所示,attribute predictor 使用 hidden states 序列 h={h1,h2,..,hn}\mathbf{h}=\{\mathbf{h}_1,\mathbf{h}_2,..,\mathbf{h}_n\}h={h1?,h2?,..,hn?} 作為輸入。之后 attribute predictor 對所有屬性計(jì)算 注意力權(quán)重 a={a1,a2,..,ak}\mathbf{a}=\{\mathbf{a}_1,\mathbf{a}_2,..,\mathbf{a}_k\}a={a1?,a2?,..,ak?},其中 ai={ai,1,ai,2,..,ai,n}.?i∈[1,k]and?j∈[1,n],ai,j\mathbf{a}_i=\{\mathbf{a}_{i,1},\mathbf{a}_{i,2},..,\mathbf{a}_{i,n}\}. \forall{i}\in{[1,k] \text{ and } j\in{[1,n]}, a_{i,j}}ai?={ai,1?,ai,2?,..,ai,n?}.?i∈[1,k]?and?j∈[1,n],ai,j? 計(jì)算公式如下:
ai,j=exp?(tanh?(Wahj)Tui)∑texp?(tanh?(Waht)Tui)(3)a_{i,j}=\frac{\exp(\tanh(\mathbf{W}^a\mathbf{h}_j)^T\mathbf{u}_i)}{\sum_t{\exp(\tanh(\mathbf{W}^a\mathbf{h}_t)^T\mathbf{u}_i)}}\tag{3}ai,j?=∑t?exp(tanh(Waht?)Tui?)exp(tanh(Wahj?)Tui?)?(3)
其中,ui\mathbf{u}_iui? 表示第 iii 個屬性的上下文向量,用于計(jì)算一個元素對屬性 iii 的 informative(提供有用信息),Wa\mathbf{W}^aWa 表示所有屬性共享的權(quán)重矩陣。之后,我們獲得事實(shí) g={g1,...,gk}\mathbf{g}=\{\mathbf{g}_1,...,\mathbf{g}_k\}g={g1?,...,gk?} 屬性感知(attribute-aware) 表示,and gi=∑tai,tht\mathbf{g}_i=\sum_t{a_{i,t}\mathbf{h}_t}gi?=∑t?ai,t?ht?。最后,使用表示 ggg 將其投影到標(biāo)簽空間中,并使用softmax函數(shù)來獲取最后的預(yù)測結(jié)果 p=[p1,p2,...,pk]\mathbf{p}=[p_1,p_2,...,p_k]p=[p1?,p2?,...,pk?],其中 pip_ipi? 是屬性 iii 的預(yù)測結(jié)果,其計(jì)算方法如下:
zi=softmax(Wipgi+bip)pi=argmax?(zi)(4)\begin{aligned} \mathbf{z}_i&=softmax(\mathbf{W}_i^p\mathbf{g}_i+\mathbf{b}_i^p) \\ p_i&=arg \max(\mathbf{z}_i) \end{aligned}\tag{4}zi?pi??=softmax(Wip?gi?+bip?)=argmax(zi?)?(4)
其中,zi\mathbf{z}_izi? 表示 Yes and No 上的預(yù)測概率分布。Wipand?bi\mathbf{W}_i^p \text{ and }\mathbf{b}_iWip??and?bi? 是屬性 iii 的權(quán)值矩陣和偏移向量。
3.5 Output Layer
為了整合事實(shí)描述和所有屬性的 fact-findings,我們使用 無屬性(attribute-free) 和 屬性感知(attribute-aware) 表示來預(yù)測輸出層案件最終預(yù)測的charge。所有 charges 的預(yù)測分布 yyy 計(jì)算如下:
r=∑igik,v=e⊕r,y=softmax(Wyv+by).(5)\begin{aligned} \mathbf{r}&=\frac{\sum_i\mathbf{g}_i}{k}, \\ \mathbf{v}&=\mathbf{e}\oplus\mathbf{r}, \\ y&=\text{softmax}(\mathbf{W}^y\mathbf{v}+\mathbf{b}^y). \end{aligned}\tag{5}rvy?=k∑i?gi??,=e⊕r,=softmax(Wyv+by).?(5)
其中,r\mathbf{r}r 表示屬性感知表示的均值。r\mathbf{r}r 與 e\mathbf{e}e 串聯(lián)形成最終的事實(shí)表示 v\mathbf{v}v。Wyand?by\mathbf{W}^y \text{ and }\mathbf{b}^yWy?and?by 是輸出層的權(quán)值矩陣和偏移向量。
3.6 Optimization
本模型的訓(xùn)練目標(biāo)函數(shù)由兩部分組成。
- charge損失:最小化預(yù)測charge分布 yyy 與 ground-truth 分布y^\hat{y}y^? 之間的交叉熵。 charge預(yù)測損失函數(shù)如下所示:
Lcharge=?∑i=1Cyi?log?y^i(6)\mathcal{L}_{charge}=-\sum_{i=1}^Cy_i·\log{\hat{y}_i}\tag{6}Lcharge?=?i=1∑C?yi??logy^?i?(6)
其中,yiy_iyi? 表示ground-truth標(biāo)簽,y^i\hat{y}_iy^?i? 表示預(yù)測概率,CCC 表示charges的數(shù)量。 - 屬性損失:最小化每一個屬性的預(yù)測分布與ground-truth fact-founding 之間的交叉熵。 由于每個屬性在模型中都同等重要,所以可將所有屬性的交叉熵相加來計(jì)算屬性損失。但是,當(dāng)具體charge的屬性為 NA 時,相應(yīng)案件的標(biāo)簽可以為 Yes 或 No。因此,僅當(dāng) charge 的屬性是 Yes 或 No 時,才將交叉熵加到屬性損失上。最后,屬性損失表示如下:
Lattr=?∑i=1kIi∑j=12zij?log?(z^ij),(7)\mathcal{L}_{attr}=-\sum_{i=1}^kI_i\sum_{j=1}^2z_{ij}·\log(\hat{z}_{ij}),\tag{7}Lattr?=?i=1∑k?Ii?j=1∑2?zij??log(z^ij?),(7)
其中,IiI_iIi? 表示一個指示函數(shù)。若當(dāng)前charge的第 iii 個屬性標(biāo)記為 Yes 或 No,則 Ii=1I_i=1Ii?=1,否則 Ii=0I_i=0Ii?=0。顯然,ziz_izi? 表示ground-truth 標(biāo)簽,z^i\hat{z}_iz^i? 表示在 Yes 或 No 上的預(yù)測概率分布。
最終的損失函數(shù) L\mathcal{L}L 是通過 Lcharge\mathcal{L}_{charge}Lcharge? 加 Lattr\mathcal{L}_{attr}Lattr? 實(shí)現(xiàn)的:
L=Lcharge+α?Lattr(8)\mathcal{L}=\mathcal{L}_{charge}+\alpha·\mathcal{L}_{attr}\tag{8}L=Lcharge?+α?Lattr?(8)
其中,α\alphaα 是一個超參數(shù),用于平衡損失函數(shù)中兩個部分的權(quán)重。
4 Experiments
4.1 Dataset Construction
數(shù)據(jù)獲取:由于以前 works 中沒有公開可用的數(shù)據(jù)集來進(jìn)行 charge 預(yù)測,我們從中國裁判文書網(wǎng)(China Judgments Online)收集中國政府公布的刑事案件。由于每個案件具有 well-structured,可以分為事實(shí)(fact)、法院觀點(diǎn)(court view) 和 處罰結(jié)果(penalty result)等幾個部分,我們選擇每個案件的事實(shí)部分作為輸入。此外,我們可以通過正則表達(dá)式輕松地從懲罰結(jié)果中提取 charge。我們已手動檢查了提取的 charge,幾乎沒有錯誤。
數(shù)據(jù)過濾:一些真實(shí)的案件包含多個被告和多項(xiàng)charges,由于其過于復(fù)雜,所以我們刪除了判決中包含一項(xiàng)以上charges的案件。此外,為了檢查我們的方法在 few-shot charges 中的性能,我們保留了 149 個不同的 charges (比 (Luo et al., 2017) 高出3倍),少有10個案例。
預(yù)處理:隨機(jī)選擇約40萬個案件并構(gòu)建三個不同規(guī)模的數(shù)據(jù)集,定義為 Criminal-S(small), Criminal-M(medium) 和 Criminal-L(large)。這三個不同的數(shù)據(jù)集包含相同數(shù)量的 charges,但案件數(shù)量卻不同。詳細(xì)統(tǒng)計(jì)信息如表2所示。
4.2 Attribute Selection and Annotation
如前一部分所述,我們提出引入鑒別性屬性來增強(qiáng)charge預(yù)測能力。為了選擇這些屬性,
- 首先,訓(xùn)練一個基于 LSTM 的charge預(yù)測模型并獲得驗(yàn)證集上預(yù)測charges的混淆矩陣。
- 然后,篩選出令人困惑的charge對,并將其提供給三名犯罪專業(yè)的碩士生。
- 最后,根據(jù)這些混亂的charge對,他們定義了10個代表性屬性來區(qū)分這些混亂的charge對。
使用選定的10個屬性,我們對所有charges進(jìn)行低成本注釋。具體來講,只需要手動為 149 個charges (而不是所有案件) 的 10 個屬性進(jìn)行標(biāo)注。由于選擇的屬性具有區(qū)分性和明確性,我們要求這些注釋者為每個注釋達(dá)成協(xié)議。總共,我們花了不到10個小時進(jìn)行注釋。
4.3 Baselines
baselines:包括典型的文本分類模型和一個charge預(yù)測模型。
- TFIDF+SVM:TFIDF用于特征提取,SVM用于分類。
- CNN:使用 multiple filter widths 的CNN作為文本分類器。
- LSTM:一個兩層的LSTM和一個max-pooling作為事實(shí)encoder。
- Fact-Law Attention Model:Luo et al. (2017)提出一個基于注意力的 charge 預(yù)測模型,通過整合相關(guān) law articles。
4.4 Experiment Settings and Evaluation Metrics
- 所有案件文件:中文且沒有進(jìn)行分詞。
- 分詞:THULAC (Sun et al., 2016)
- 最大文本長度(maximum document length):500
模型設(shè)置:
- TFIDF+SVM:feature size 為 2000;
- 其他神經(jīng)網(wǎng)絡(luò)模型:使用 Skip-Gram model (Mikolov et al., 2013)預(yù)訓(xùn)練詞向量,且embedding size為100。
- LSTM 的 hidden state size:100
- CNN 的 filter widths:(2, 3, 4, 5) 且每個過濾器尺寸都設(shè)置為25以保持一致性。
- 屬性損失的 α\alphaα 權(quán)重:1
- 注意:串聯(lián)后,模型的特征大小將變?yōu)?200。為公平比較,在 CNN 和 LSTM 的池化層之后,添加一個 100 × 200 FC layer,被定義為 CNN-200 和 LSTM-200。
- 優(yōu)化器(optimizer):Adam (Kingma and Ba, 2015)
- 學(xué)習(xí)率(learning rate):0.001
- Dropout:0.5
- batch size:64
- 評價指標(biāo):accuracy (Acc.), macro-precision (MP), macro-recall (MR) and macro-F1
4.5 Results and Analysis
- 本模型顯著且始終優(yōu)于所有基線。現(xiàn)有方法在 macro-F1 上表現(xiàn)不佳,這表明缺乏預(yù)測 few-shot charges 的能力。相反地,本模型有所提升,證明了我們的模型的魯棒性和有效性。
- 進(jìn)一步驗(yàn)證 few-shot charges 上的性能,我們顯示不同頻率的charges的性能,如圖4所示。我們根據(jù)頻率將 charges 分為三個parts,即 小于10個案例的 charges 為 low-frequency,高于100個案例的 charges 為 high-frequency。
- 我們的模型實(shí)現(xiàn)了比 baseline 在 low-frequency charges 50%以上的提升,證明本方法在處理 few-shot 問題上的有效性。
4.6 Ablation Test
我們的方法的特點(diǎn)是將注意力機(jī)制(attention mechanism)和屬性感知(attribute-aware)表示相結(jié)合。因此,分別設(shè)計(jì) ablation test(消融試驗(yàn)) 來研究這些模塊的有效性。
- 當(dāng)不使用注意力機(jī)制:對于每個屬性,用一個FC layer 代替 attention mechanism。
- 當(dāng)不使用屬性感知表示(即,不串聯(lián)平均屬性感知表示形式):將模型分解為一個基于LSTM的多任務(wù)學(xué)習(xí),用于 charge 和屬性預(yù)測。
- 在移除注意力層或連接層之后,性能明顯下跌。macro-F1 最少減少4%。
==》注意力機(jī)制和屬性感知表示在模型中扮演不可替代的角色。
4.7 Case Study
在本部分中,利用一個代表性的案件,以直觀地說明預(yù)測屬性如何幫助提高charge預(yù)測的性能。在本案中,被告被判犯有intentional injury(故意傷害罪)。通常很難判斷案件是 affray(滋事罪(打架斗毆類)) 還是intentional injury(故意傷害),因?yàn)樗鼈兌寂c暴力有關(guān)。兩者的一個重要區(qū)別是intentional injury具有physical injury(身體傷害)的特征,而affray則沒有。
所以,我們認(rèn)為,身體傷害的屬性是本案的charge預(yù)測中必不可少的。如圖6所示,本方法正確地預(yù)測身體傷害的標(biāo)簽為 Yes,從而將charge預(yù)測為故意傷害。相反,LSTM-200模型預(yù)測不正確,其預(yù)測為 affray。此外,在預(yù)測屬性故意傷害時,我們直觀地看到此案例的熱圖。背景顏色較深的單詞具有較高的關(guān)注度。從下圖中,我們觀察到注意機(jī)制可以捕獲與當(dāng)前屬性相關(guān)的關(guān)鍵 patterns and semantics。
5 Conclusion
本文關(guān)注根據(jù)刑事案件的事實(shí)描述對charge預(yù)測。為了解決 few-shot 和易混淆 charges 的問題,我們引入具有辨別力的法律屬性,并提出一個新穎的基于屬性的多任務(wù)學(xué)習(xí)模型來進(jìn)行charge預(yù)測。具體來講,我們的模型通過利用基于屬性的注意力機(jī)制來聯(lián)合學(xué)習(xí)無屬性和屬性感知事實(shí)表示。
未來方向:
- 對于復(fù)雜的刑事案件,例如多被告和charges。因此,處理這種一般形式的charges預(yù)測是具有挑戰(zhàn)性的;
- 本方法僅利用charge的幾個簡單屬性,而存在更復(fù)雜的charges必要條件。如何充分利用charges必要條件,有望提高charge預(yù)測模型的可解釋性。
總結(jié)
以上是生活随笔為你收集整理的【Paper】Few-Shot Charge Prediction with Discriminative Legal Attributes的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Paper】Learning to P
- 下一篇: 企业架构笔记(一)