基于裁判文书与犯罪案例文本挖掘项目
LawCrimeMining
Law Crime Mining Based on Corpus build and content analysis by NLP methods. 基于領域語料庫構建與NLP方法的裁判文書與犯罪案例文本挖掘項目
項目地址:https://github.com/liuhuanyong/LawCrimeMining
項目介紹
正邪不兩立,法律與犯罪水火不容,隨著我國法制建設不斷健全,法規日趨完善,人們的法律意識也越來越強.當前,隨著越來越多的法律文本公開,為犯罪案件審理這個方面的挖掘積累了大量的文本內容.因此,通過收集法律與犯罪領域文本,構建起司法領域語料庫,并使用自然語言處理技術進行挖掘,具有重要意義,我們將其稱為法律智能,引用smp2018司法論壇的發言來說,法律智能包括以下幾個應用點:
項目結構
本項目由兩個部分組成:
1)司法領域語料庫的構建,這個部分細分為兩個子庫,一個是法律裁判文書,另一個是犯罪案例
2)基于司法領域語料庫的挖掘, 嘗試進行以下實驗:
a) 刑事與民事案件分類
b) 案件語義區域識別
c) 犯罪事實與量刑結果二元抽取
d) 基于犯罪案例的判決預測
腳本結構
1)script_spider:
anliwang_spider.py:案例館語料采集,案例館中主要有各種案例,用于構建犯罪案例語料庫
sifafwang_spider.py:司法考試網語料采集,該網站中有各類案例,用于構建犯罪案例語料庫
courtlaw_spider.py:最高人民法院裁判文書采集,用于構建裁判文書語料庫
lawlib_spider.py: 法律圖書館網站裁判文書采集,用于構建裁判文書語料庫
2) corpus_lawsuit:
裁判文書語料庫的1000個文本樣例,執行采集腳本后,可得到108545,量級為十萬的裁判文書
3) corpus_crime:
犯罪案例語料庫的1000個文本樣例,指定采集腳本后,可得到63451, 量級為6萬的犯罪案例
基于刑法的因果字典抽取
根據中國人民刑法,對其進行因果處理,形成crime_nanme, cause, crime三個字段的抽取,形成量刑的基礎,示例如下:
{ 'crime_name': ['故意傷害罪', '組織出賣人體器官罪'], 'cause': ['故意傷害他人身體的'], 'crime': '三年以下有期徒刑、拘役或者管制' } { 'crime_name': ['故意傷害罪', '組織出賣人體器官罪'], 'cause': ['致人死亡或者以特別殘忍手段致人重傷造成嚴重殘疾的'], 'crime': '十年以上有期徒刑、無期徒刑或者死刑' } { 'crime_name': ['過失致人重傷罪'], 'cause': ['過失傷害他人致人重傷的'], 'crime': '三年以下有期徒刑或者拘役' } { 'crime_name': ['強奸罪'], 'cause': ['以暴力、脅迫或者其他手段強奸婦女的'], 'crime': '三年以上十年以下有期徒刑' } { 'crime_name': ['強制猥褻、侮辱罪、猥褻兒童罪'], 'cause': ['以暴力、脅迫或者其他方法強制猥褻他人或者侮辱婦女的'], 'crime': '五年以下有期徒刑或者拘役' } { 'crime_name': ['非法拘禁罪'], 'cause': ['非法拘禁他人或者以其他方法非法剝奪他人人身自由的'], 'crime': '三年以下有期徒刑、拘役、管制或者剝奪政治權利' } { 'crime_name': ['非法拘禁罪'], 'cause': ['致人死亡的'], 'crime': '十年以上有期徒刑' }to be continued…
項目地址:https://github.com/liuhuanyong/LawCrimeMining
If any question about the project or me ,see https://liuhuanyong.github.io/
總結
以上是生活随笔為你收集整理的基于裁判文书与犯罪案例文本挖掘项目的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 福利!Android官方网站出现中文版本
- 下一篇: 可扩展的TextView,Expanda