“智慧法院”数据融合分析与集成应用
“智慧法院”數據融合分析與集成應用
秦永彬1,2, 馮麗1, 陳艷平1,2, 黃瑞章1,2, 劉于雷3, 丁紅發1?
1 貴州大學計算機科學與技術學院,貴州 貴陽 550025
2 貴州大學貴州省公共大數據重點實驗室,貴州 貴陽 550025
3 多彩貴州網有限責任公司,貴州 貴陽 550000
摘要:針對“智慧法院”建設中存在的共性問題和實際需求,介紹了“智慧法院”數據融合分析及集成應用示范平臺的架構。從司法大數據深度語義學習、基于知識圖譜的司法數據融合、司法數據安全防護與隱私保護以及司法數據融合分析的可視化4個方面,探討了“智慧法院”建設中共性關鍵技術的研究思路和實現路徑。最后,以證據抽取、犯罪行為鏈構建和法律條文推薦為例,展現了數據融合分析及集成應用示范平臺的應用效果。研究成果對實現以法院司法數據為核心的新一代“智慧法院”建設目標具有一定的參考價值。
關鍵詞:?智慧法院 ; 知識圖譜 ; 數據融合 ; 融合分析應用
論文引用格式:
秦永彬, 馮麗, 陳艷平, 黃瑞章, 劉于雷, 丁紅發. “智慧法院”數據融合分析與集成應用. 大數據[J], 2019, 5(3):35-46
QIN Y B, FENG L, CHEN Y P, HUANG R Z, LIU Y L, DING H F.“Intelligent Court” data fusion analysis and integrated application. Big Data Research[J], 2019, 5(3):?35-46
1 引言
2016年,《國家信息化發展戰略綱要》將建設“智慧法院”列入國家信息化發展的戰略中。同年,《“十三五”國家信息化規劃》中明確指出:支持“智慧法院”建設,推行電子訴訟,建設完善公正司法信息化工程;提高案件受理、審判、執行、監督等各環節的信息化水平;推動執法司法信息公開,促進司法公平正義。目前,各級人民法院以“智慧法院”建設為依托,加快推進人民法院信息化建設,取得了重大進展:各級法院都在積極推動互聯網、物聯網、大數據、人工智能與法院工作的深度融合,圍繞“智慧法院”的業務辦理、信息檢索、文書審閱、案件預測、智能咨詢等信息化應用,不斷地進行探索和實踐;各級法院的全業務網上辦理的網絡化格局基本形成;利用互聯網推動全流程依法公開的陽光化目標基本實現。這些進展為人民法院的智能化建設打下了堅實基礎。
在此過程中,以大數據和人工智能技術為支撐的“智慧法院”系統不斷發展,有效推動了司法領域的智能化實踐。例如,以人工智能為基礎的庭審語音轉文字、裁判文書或起訴書的自動生成、法律文件輔助審閱、裁判文書證據材料自動抽取等,為“智慧法院”的審判質量評估、精準分案、自動量刑和輔助審判等應用需求提供了核心技術支撐。基于大數據和人工智能的輔助辦案可以顯著提高法院辦案的工作效率,一方面可以幫助當事人形成最佳的訴訟策略,節約訴訟成本;另一方面,可以幫助法官實現同案同判,確保判決一致性,增強司法公信力,確保司法公平正義。此外,法院通過人工智能客服機器人,可以為公眾提供在線的實時法律咨詢服務。
然而,“智慧法院”建設涉及的數據來源廣泛、結構復雜、動態實時,法院數據在對數據進行有效利用的過程中急需解決以下問題:
● 數據來源和存儲結構的多樣性造成了部門內部或體系內部的“數據孤島”;
● 數據具有鮮明的領域性和專業性,數據特征隱藏較深,導致數據挖掘分析性能較差;
● 由于數據的多源異構性,司法知識體系難以構建;
● 數據涉及面廣、敏感度高,導致數據安全保障和隱私保護問題迫切。
筆者團隊針對這些問題,基于貴州省高級人民法院的司法大數據,開展了理論研究和技術攻關,探索了司法領域數據的融合分析和集成應用方法,目標是通過整合法院現有的審判數據、業務數據以及人員數據等,提升法院審判過程的智能化水平,實現法院的自動分案、人案關聯分析、審判態勢數據智能統計與分析等業務需求。本文分析了“智慧法院”在司法數據融合、數據安全與隱私保護、數據可視化方面的研究現狀,針對“智慧法院”建設中存在的實際問題,提出了司法大數據深度語義學習方法、基于知識圖譜的司法數據融合方法、司法數據安全防護與隱私保護以及數據融合分析的可視化應用示范的研究思路和技術路線;并以證據抽取、犯罪行為鏈構建和法律條文推薦為例,闡述了本文所做的研究在實際應用中的有效性,為審判工作的智能化、精細化提供了有效的支撐。
2 國內外研究發展
“智慧法院”是2016年提出的司法領域的信息化發展戰略,到2018年,智慧法院3.0版形成,相關研究與應用取得了重大進展。近年來,以大數據和人工智能技術為基礎的應用已經在政府治理、生態建設、創新平臺、智慧城市等領域取得了廣泛應用,也為法院業務辦理、信息檢索、文書審閱、案件預測、智能咨詢等信息化應用帶來了巨大便利。早在1986年,美國的法律體系中就出現了人工智能一詞,現如今,美國的機器人律師已經可以提供簡單的業務辦理服務,這標志著人工智能在法律實踐中邁出了重要一步。Remus D等人認為機器人正在慢慢取代律師,Payne S等人認為計算機技術在法律行業的應用對法學教育產生了重大影響。國內學者對“智慧法院”的研究早在其概念提出之前就開始了。2001年,張保生從法律推理與人工智能的關系的角度探討了人工智能法律系統的歷史及發展動力。2018年,季衛東指出科技手段只是司法實踐中的輔助手段。郝鐵川指出人們應理性對待人工智能在司法應用中的作用。
在司法數據融合方面,目前采用的較多的是傳統信息檢索技術,通過向量空間模型提供面向文檔的分析。該技術的缺點是不能提供面向文檔內容的信息融合與分析。傳統的信息提取、知識融合方法性能相對偏低。為有效地支撐法官畫像、自動量刑、法律條文推薦等面向文檔內容的分析與應用,需要充分挖掘句子的結構信息和語義特征,提升知識融合的性能。在已有研究中,獲取句子結構特征的方法主要有4類:N元語法。另外,Jacobs D W等人提出了一種廣義多視角的特征提取方法。Zhou J T等人提出一種域自適應學習方法。Zhu Y等人通過文本語義提升圖像特征抽取的質量。Liu K等人提出一種基于重構錯誤累計矢量的跨媒體融合方法。Zhang X M等人提出一種基于跨媒體數據協作的社會圖像標注方法。在特征選擇方面,Liu M等人將鏈接限制條件作為區分能力的正則項,提出一種基于成對限制稀疏學習的特征方法。相對于其他領域的數據融合,司法數據融合主要聚焦案件分析。國內針對司法數據融合的研究相對來說還比較少。
在數據融合與應用的過程中,數據的安全與隱私保護也是必須解決的問題。匿名和泛化是用于隱私保護的經典方法,能夠在保證對外發布數據真實性的同時保護隱私信息。Amro B等人提出了一種基于用戶偏好的假名機制,該機制通過用戶自發地更換假名的方式,達到隱私保護的目的。Ghinita G等人利用k-匿名的思想,用空間匿名區域的位置代替用戶的精確位置,從而達到隱私保護的目的。Wu S等人將k-匿名應用于眾包數據庫中的數據隱私保護。目前,k-匿名采用泛化技術對原始數據進行匿名處理,當屬性的維數較高時,為滿足泛化要求,必將導致更多的信息丟失,使得發布的匿名數據可用性變差。
數據可視化是數據應用示范的重要途徑,可視化技術將數據挖掘過程中抽取出的潛在的、有價值的知識展示給用戶,從而滿足用戶的不同需求。可視化數據挖掘技術已經成為數據挖掘領域的研究熱點。汪加才等人設計了一個交互式可視化數據挖掘系統,允許用戶以交互的方式從標記圖或距離圖中選定感興趣的區域,加以深入分析。陳濤等人研究了關聯數據的可視化技術。袁海等人研究了中文文本的可視化技術,文本可視化提高了數據的可視化效率和轉換成利益的效率。
在司法領域的數據融合分析與集成應用過程中,還沒有形成相對系統化的研究體系或應用體系,許多針對司法文本的分析大多使用開放域或傳統的文本分析的方法。目前,也沒有針對司法數據的專門的數據安全和隱私保護的體系或模式。
3 “智慧法院”數據融合分析及集成應用示范平臺架構
“智慧法院”數據融合分析及集成應用示范平臺架構如圖1所示。以貴州省高級人民法院為例,通過分析其在“智慧法院”建設過程中存在的實際問題和對智慧辦案、智慧辦公、智慧運維、智慧監督的需求,本文重點研究“司法大數據深度語義學習”“基于知識圖譜的司法數據融合”“司法數據安全防護與隱私保護”和“司法數據融合分析的可視化”4個內容。為貴州省高級人民法院面向“數字法官-金字團隊-智慧法院”的司法大數據應用提供理論依據和技術支撐。
圖1?? “智慧法院”數據融合分析及集成應用示范平臺架構
3.1 司法大數據深度語義學習?
司法數據包含各種結構化和半結構化數據。司法數據中的各類文檔因撰寫格式、使用措辭、時間、法院甚至法官和團隊的不同而存在很大差異。這種差異會導致相似案件的裁判文書在表達方式上存在明顯的區別。大量的案件信息隱藏在非結構化的辦案文件中,例如,裁判文書中的案情特征對法條推薦結果、案件審判結果有顯著影響;涉及具體的案件審判時,裁判文書中的案情特征的順序可能直接影響案件的審判結果;相同特征的案件,由于案情特征序列的不同也可能導致審判結果的不同。司法數據融合分析的目標是有效地挖掘法院多源異構數據中的隱含知識,以支撐法院的數據應用。為了支撐“智慧法院”司法數據的融合應用,應重點研究針對司法數據的深度語義學習方法。通過深度學習模型,挖掘文本中的語義信息,識別其中的案件知識要素,從而有效地解決數據融合過程中的語義理解問題。
3.2 基于知識圖譜的司法數據融合?
在司法數據深度語義分析的基礎上,構建“智慧法院”數據知識圖譜,融合司法數據中的案件要素,并研究案情的演化分析方法。司法數據多元化、深度化、層次化的特點導致案件的演化分析和案件知識的轉化非常困難。針對這些特點,筆者采用了基于知識圖譜的司法數據融合方法。在知識圖譜構建的過程中,需要研究不同粒度實體的提取方法;然后,識別實體之間的關聯關系。在實體識別和關系識別的基礎上,構建“智慧法院”應用中的司法大數據知識圖譜。在融合與分析的過程中,各類算法需要具備良好的可擴展性和實時性,滿足系統平臺對知識圖譜的實時檢索、快速更新處理的需求。在應用過程中,應通過深入分析多層次知識圖譜的演化性質,支撐法院審判工作中的案情演化分析。
3.3 司法數據安全防護與隱私保護?
“智慧法院”信息化系統中積累了大量的司法敏感數據和個人隱私數據。數據安全防護和個人隱私保護是“智慧法院”建設與應用的關鍵基礎,也是數據融合分析的核心需求。在數據融合過程中,需要精確定位案件數據中敏感數據的位置和安全需求等級,設計針對司法敏感數據的訪問控制、數據傳輸安全、數據訪問接入安全認證、個人隱私數據自動化識別、隱私度量等防護方案;通過數字簽名、訪問控制、對稱加密、Hash算法等數據安全防護中常用的方案,結合差分隱私、隱私量化、匿名技術、泛化技術等隱私保護技術,構建司法領域的數據安全和隱私保護體系,實現多源數據融合過程中的數據安全防護與隱私保護。
3.4 司法數據融合分析的可視化?
針對貴州省高級人民法院建設“數字法官-金子團隊-智慧法院”示范應用的需求,借助深度語義分析、特征畫像、法院知識圖譜構建和可視化等關鍵技術,實現從“法官”到“團隊”再到“法院”的可視化展示及全方位評價,從而支撐“精準分案”和“智能化推薦”等應用,提高司法審判的效率和質量,促進專業化審判團隊的發展。
4 共性關鍵技術
為了支撐“智慧法院”建設中的數據融合分析與集成應用研究,筆者提出了基于深度神經網絡邊界組合實體識別方法、多通道實體關系識別方法、證據識別方法、犯罪行為識別方法和句法要素識別方法;構建了以犯罪行為為中心的知識圖譜,有效支撐了審判質量評估、精準分案和自動量刑等具體應用需求。相關研究內容為“智慧法院”數據融合分析及集成應用示范提供了理論依據和技術支持。其中涉及的共性技術和研究思路,具體如下。
4.1 司法數據的特征表示技術?
傳統司法數據的特征表示主要采用向量空間模型,該模型把文檔空間映射到一個測度空間,文檔的相似度對應測度空間中文檔向量的距離。法院各類文書的異質性(如產生的時間不同、法院不同、法官不同等)使得傳統的向量空間模型容易產生高維的稀疏特征,不利于針對司法文檔的語義分析。為此,本文研究了一種能夠處理異質數據的特征抽取與自適應匹配的方法,即基于深度語義特征提取技術。該方法利用深度學習方法挖掘司法大數據中的深度語義特征,可以有效支撐司法數據知識圖譜中的案件要素抽取。其技術路線如圖2所示。
圖2?? 深度語義特征提取技術路線
深度語義特征提取技術的研究思路如下。
● 語義結構空間生成:利用神經網絡把淺層特征映射到一個深度語義空間,利用特征組合產生潛在的語義結構空間,提高數據可分性。
● 語義結構排序:通過計算候選語義結構和目標語義結構的距離,進行排序。
● 特征選擇:根據句子的結構信息和語法功能,利用先驗知識操作劃分后的特征集合。
● 特征畫像:針對法院的各知識要素,建立實體的特征體系,建設特征實體算法庫,實現準確、高效的法院大數據的實體畫像拓撲集。
4.2 基于知識圖譜的司法數據融合技術?
基于知識圖譜的司法數據融合技術實現過程共分6個步驟,如圖3所示。第一步,在實體特征畫像的基礎上,對相似實體進行合并和消歧。第二步,識別實體的關聯關系,建立表述實體間關系的知識圖譜。第三步,基于同類實體之間的強關聯關系,合并同類實體,構建多粒度實體。第四步,挖掘多粒度實體之間的關聯關系,構建多層次知識圖譜。第五步,利用時間特征,針對實體進行特征的演變識別,利用動態數據的進化算法進行知識進化學習。第六步,利用知識圖譜的鏈接預測方法,衡量實體間的全局和局部相似度,推斷實體與實體間的間接關系。
圖3?? 基于知識圖譜的司法數據融合技術路線
4.3 融合過程中的數據安全與隱私保護技術
數據安全與隱私保護技術的研究思路如圖4所示。第一步,制定對法院大數據進行數據安全和隱私保護數據的分級、分類標示方法;第二步,在數據安全防護中采用數字簽名、對稱加密、Hash算法等技術,在隱私保護中采用隱私風險控制、隱私量化、匿名技術、泛化技術等;第三步,根據數據安全標示確定數據的安全訪問權限,確定數據脫敏方法,并進行數據的并行脫敏處理;第四步,根據多源異構數據的索引結構和過濾算法,建設脫敏后數據的索引方法。
圖4?? 數據安全與隱私保護技術路線
4.4 “智慧法院”的可視化應用示范?
“智慧法院”的可視化應用示范平臺工作流程如圖5所示。第一,通過法院數據融合與分析平臺進行集成數據標準管理,通過特征管理系統建立實體特征體系;第二,通過數據抽取、轉換、加載(ETL)和應用程序編程接口(API),實現法院內部數據與外部數據的實時與批量導入,并進行初步的數據整合;第三,利用基于知識圖譜的分析技術、實體特征體系、集成數據標準進行數據融合與分析;第四,將分析后的數據導入基于搜索引擎(Elasticsearch,ES)、圖庫的檢索系統,通過統一的數據服務接口對外提供數據服務;第五,法院數據可視化與服務支撐平臺、法院數據融合與分析平臺進行數據的分發與回寫。
圖5?? “智慧法院”的可視化應用示范平臺工作流程
5 應用案例
以證據抽取、犯罪行為鏈構建和法律條文推薦為例,本節簡單介紹筆者提出的“智慧法院”的數據融合分析與集成應用的研究進展和應用效果。
5.1 證據抽取?
根據法官辦案的要求,裁判文書中的證據條目過少或過多會導致量刑中的輕判或重判。對裁判文書中的證據進行自動抽取,并與案件卷宗中提供的證據列表進行一一對比,可以對案件的審判質量進行評估。在實現中,首先選擇650篇裁判文書,標注其中的證據部分①。然后,采用基于深度神經網絡的命名實體識別技術進行證據的自動抽取。研究發現,裁判文書中的證據在表達上與傳統命名實體存在一定的差異,其結構性比較強、字數多、中心詞明顯(如××復印件、××結婚證等),而且存在互相嵌套的問題。傳統的序列標注模型(如隱馬爾可夫模型、條件隨機場、循環神經網絡等)主要依賴局部特征,不能有效識別嵌套證據,在證據抽取中的效果比較差。根據裁判文書中證據條目的文本特點,筆者提出了基于神經網絡的邊界組合證據抽取模型。該方法首先利用循環神經網絡模型(Bi-LSTMCRF)識別證據的邊界(如邊界的開始、邊界的結束),然后通過組合證據的邊界產生證據候選詞,再根據證據候選詞的上下文特征,采用卷積神經網絡(convolutional neural network,CNN)識別出其中的正確證據。與直接使用Bi-LSTM-CRF模型的方法相比,該方法能夠在性能上提升10%以上的F值。
5.2 犯罪行為鏈構建?
在法院具體的案件審判工作中,需要對案件的案情進行分析。裁判文書中的案情描述和預測案件涉及的相關法條、罪名等信息對輔助法官辦案有重要的作用。在傳統的審判輔助工作中,司法人員主要采用案件的文本特征進行法條、量刑、案由識別。在這種情況下,通常不考慮案情要素之間的順序關系。在實際應用中,案件要素之間的時間序列、行為序列會直接影響最終的審判結果。對于相同案件要素的案件,案情要素序列的不同會導致審判結果的不同。比如,“強奸殺人”和“殺人辱尸”,犯罪行為的順序不同會導致判決結果的差異。針對這一問題,在知識圖譜構建中,筆者通過對案情行為序列關鍵詞進行提取,建立與之對應的犯罪“行為鏈”,展現案情的主要情況、時序關系和發展趨勢,“行為鏈”以“行為詞”為中心,圍繞“行為詞”提取關鍵案情要素特征,通過行為序列構建行為詞與其他以“行為”為中心的特征詞之間的關聯關系,進而構建以“犯罪行為”為中心的司法數據間的內在關聯和知識體系。如此,筆者可以借助犯罪“行為鏈”實現對案情語義的深層分析。
5.3 法律條文推薦?
傳統的法律條文推薦主要依靠法律文本中的案情特征進行預測。這種情況無法考慮裁判文書中案情要素的時間特征。在裁判文書分析中,案件要素的時間特征對審判結果會有較大的影響。為了有效地利用案件要素的時間信息提升法律條文預測的性能,輔助法官辦案,筆者利用案情的事實描述和犯罪行為序列預測案件涉及的相關法律條文,從而驗證基于犯罪行為序列的法律條文預測的有效性。在實現上,筆者利用TextCNN模型對裁判文書中案情描述部分的信息進行處理,獲得文本中的語義信息。由于卷積神經網絡模型不能有效地獲取文本中案情要素之間的語義依賴關系,筆者采用BiLSTM模型對文本中抽取的犯罪行為過程進行建模,獲取裁判文書中案情要素之間的時間特征,然后與TextCNN模型的輸出進行拼接,最后通過全連接層和softmax函數得到法律條文的預測結果。與直接采用TextCNN的方法相比,該模型在法律條文的推薦上能提升6%的F值。
6 結束語
“智慧法院”的建設是司法改革的重要抓手。本文基于貴州省高級人民法院的案件數據,探索了司法大數據深度語義學習方法、基于知識圖譜的數據融合與分析、司法數據安全防護與隱私保護等圍繞智慧法院應用的相關研究,并提出了研究思路和技術實現路徑,以期幫助法院實現從信息化到數據化、智能化的提升,實現以法院司法數據為核心的新一代的“智慧法院”建設。此外,筆者重點闡述了以數據為核心的應用理念,從司法領域的層面為政務領域大數據的應用提供了多源異構政務數據的融合分析與應用案例。
作者簡介
秦永彬(1980- ),男,博士,貴州大學計算機科學與技術學院教授,主要研究方向為大數據治理與應用、多 源數據融合與應用、企業信息化與電子政務。
馮麗(1993- ),女,貴州大學計算機科學與技術學院碩士生,主要研究方向為自然語言處理、數據融合分析。
陳艷平(1980- ),男,博士,貴州大學計算機科學與技術學院副教授,主要研究方向為數據融合分析、自然 語言處理、知識發現。
黃瑞章(1979- ),女,博士,貴州大學計算機科學與技術學院副教授,主要研究方向為數據融合分析、文本 挖掘、網絡挖掘、知識發現。
劉于雷(1978- ),男,多彩貴州網有限責任公司互聯網大數據研發部負責人,貴州省互聯網大數據與傳播應 用研發中心副主任,主要研究方向為互聯網大數據應用、數據融合分析。
丁紅發(1988- ),男,貴州大學貴州省公共大數據重點實驗室博士生,主要研究方向為隱私保護與數據安 全、密碼算法及應用。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
邊緣計算使能智慧電網
基于邊緣計算的森林火警監測系統
CPU-MIC異構并行架構下基于大規模頻繁子圖挖掘的藥物發現算法
智能電網數據資產的風險管理
區塊鏈在智慧農業中的應用展望
證券期貨行業監管大數據治理方案研究
總結
以上是生活随笔為你收集整理的“智慧法院”数据融合分析与集成应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实验一 线性表、堆栈和队列的操作与实现
- 下一篇: 2016年《大数据》杂志调查问卷