介绍一个被称为十一边形战士的强大模型
文檔智能(DI, Document Intelligence)主要指對于網頁、數字文檔或掃描文檔所包含的文本以及豐富的排版格式等信息,通過人工智能技術進行理解、分類、提取以及信息歸納的過程。文檔智能技術廣泛應用于金融、保險、能源、物流、醫療等行業,常見的應用場景包括財務報銷單、招聘簡歷、企業財報、合同文書、動產登記證、法律判決書、物流單據等多模態文檔的關鍵信息抽取、文檔解析、文檔比對等。隨著企業數字化、信息化進程不斷加速,這類需求越來越強烈,工業界急需前沿技術與易用工具來解決這些問題。百度開源的文心ERNIE-Layout以及自然語言處理開發工具PaddleNLP來得很及時,強烈安利!
文心ERNIE-Layout
重磅開源
近期,百度文檔智能團隊基于多語言跨模態布局增強的文檔智能大模型文心ERNIE-Layout,刷新了五類11項文檔智能任務效果。
▲ 百度文檔智能技術指標
繼文心ERNIE-Layout1.0后,文心ERNIE-Layout再次登頂DocVQA榜單,并成為榜單首個突破90分大關技術方案[1]。同時,基于文心ERNIE-Layout的開放文檔抽取問答模型DocPrompt, 首次以文檔智能模型登頂網頁問答榜單WebSRC[2]。
▲ DocVQA、WebSRC榜單
飛槳自然語言處理模型庫PaddleNLP第一時間為大家開源了文檔智能十一邊形戰士系列模型。
文心ERNIE-Layout多語言跨模態布局增強文檔智能大模型?
文心ERNIE-Layout依托文心ERNIE,基于布局知識增強技術,融合文本、圖像、布局等信息進行聯合建模,能夠對多模態文檔(如文檔圖片、PDF文件、掃描件等)進行深度理解與分析,為各類上層應用提供SOTA模型底座。
前往GitHub獲取詳情:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout
歡迎STAR收藏,跟蹤最新開源工作
DocPrompt開放文檔抽取問答模型(基于ERNIE-Layout)
文檔智能技術廣泛應用于金融、保險、能源、物流、醫療等行業,常見的應用場景包括各類多模態文檔的關鍵信息抽取、文檔解析、文檔比對等。基于前沿的文檔智能技術,PaddleNLP正持續開源一系列產業實踐范例,解決開發者們實際應用難題。
前往GitHub獲取詳情:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/document_intelligence
本次重磅開源的DocPrompt開放文檔抽取問答模型,以文心ERNIE-Layout為底座,可精準理解圖文信息,推理學習附加知識,準確捕捉圖片、PDF等多模態文檔中的每個細節。通過PaddleNLP Taskflow,僅用三行Python代碼即可快速體驗DocPrompt功能。
from?paddlenlp?import?Taskflow docprompt?=?Taskflow("document_intelligence",?model='docprompt') docprompt({"doc":?"./invoice.jpg",?"prompts":?["發票金額",?"左側抬頭日期是什么?"]})DocPrompt零樣本問答效果非常強悍!能夠推理學習空間位置語義,準確捕捉跨模態文檔信息,輕松應對各類復雜文檔。
▲ 可支持空間位置語義理解
▲ 可準確捕捉圖文混排多模態語義
針對網頁、表格和試卷等復雜布局文檔,DocPrompt也能結合上下文及表頭信息,給出精準答案。
▲ 網頁理解優于半結構化抽取方案
▲ 支持多維度無框線表格問答
▲ 試卷解析問答
以文心ERNIE-Layout為底座的DocPrompt,還具備跨語言多語種的抽取亮點!
▲ 支持10+語種的多語言提問
推薦大家訪問Huggingface 文心ERNIE-Layout空間,快速體驗DocPrompt帶來的驚喜!
https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout
▲ Huggingface 文心ERNIE-Layout空間
直播課預告
10月25日,文心ERNIE-Layout論文作者,百度高工將帶來直播講解,介紹文檔智能的前沿技術,深度解讀多語言跨模態布局增強文檔智能大模型文心ERNIE-Layout與開放文檔抽取問答模型DocPrompt,并帶來基于PaddleNLP的實踐范例。歡迎掃碼入群,獲取直播課程鏈接。入群還有更多福利:
與百度飛槳官方技術團隊深度交流
官方團隊整理的10GB NLP學習大禮包
TextMind智能文檔分析平臺合作咨詢
核心技術方案
文心ERNIE-Layout以文心ERNIE為底座,融合文本、圖像、布局等信息進行跨模態聯合建模,創新性引入布局知識增強,提出閱讀順序預測、細粒度圖文匹配等自監督預訓練任務,升級空間解耦注意力機制。輸入基于VIMER-StrucTexT大模型[3]提供的OCR結果,在各數據集上效果取得大幅度提升,相關工作已被EMNLP 2022 Findings 會議收錄[4]。
▲ 文心ERNIE-Layout 技術框架
文心ERNIE-mmLayout為進一步探索不同粒度元素關系對文檔理解的價值,在文心ERNIE-Layout的基礎上引入基于GNN的多粒度、多模態Transformer層,實現文檔圖聚合(Document Graph Aggregation)表示。最終,在多個信息抽取任務上以更少的模型參數量超過SOTA成績,相關論文被ACM MM 2022會議收錄[5]。
▲ 文心ERNIE-mmLayout 技術框架
文檔智能技術體系
與應用平臺
文檔智能(DI, Document Intelligence)主要指對于網頁、數字文檔或掃描文檔所包含的文本以及豐富的排版格式等信息,通過人工智能技術進行理解、分類、提取以及信息歸納的過程[6]。百度文檔智能技術體系立足于強大的NLP與OCR技術積累,以多語言跨模態布局增強文檔智能大模型文心ERNIE-Layout為核心底座,結合圖神經網絡技術,支撐文檔布局分析、抽取問答、表格理解、語義表示多個核心模塊,滿足上層應用各類文檔智能分析功能需求。
▲ 文檔智能技術體系
百度TextMind智能文檔分析平臺[7]可提供包括文檔信息抽取、文本內容審查、企業文檔管理、文檔格式解析、文檔內容比對等全方位一站式的文檔智能服務,已形成一套完整的企業文檔場景化解決方案,滿足銀行、券商、法律、能源、傳媒、通信、物流等不同行業和場景的文檔處理需求,以AI助力企業的辦公智能化升級和數字化轉型。
開源地址
https://github.com/PaddlePaddle/PaddleNLP
【更多精彩直播推薦】
*本文封面圖背景由文心ERNIE-ViLG大模型生成,歡迎點擊參考鏈接[8],體驗更多百度AI開放能力。
參考鏈接
[1]DocVQA榜單
https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=1?
[2]網頁問答榜單WebSRC
https://x-lance.github.io/WebSRC/index.html
[3]VIMER-StrucTexT
https://github.com/PaddlePaddle/VIMER#structext
[4]文心ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-trainingfor Document Understanding?
https://arxiv.org/abs/2210.06155
[5]文心ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding
https://arxiv.org/abs/2209.08569
[6]崔磊,徐毅恒,呂騰超,韋福如. 文檔智能: 數據集、模型和應用[J]. 中文信息學報, 2022, 36(6): 1-19.
[7]百度AI開放平臺——智能文檔分析平臺
https://ai.baidu.com/tech/nlp/Textanalysis
[8]文心ERNIE-ViLG
https://wenxin.baidu.com/moduleApi/ernieVilg
總結
以上是生活随笔為你收集整理的介绍一个被称为十一边形战士的强大模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: QQ空间的汉字转拼音代码
- 下一篇: 服务性能测试和内存监控