TIKA架构
應(yīng)用程序員可以很容易地在他們的應(yīng)用程序集成Tika。Tika提供了一個命令行界面和圖形用戶界面,使它比較人性化。
在本章中,我們將討論構(gòu)成Tika架構(gòu)的四個重要模塊。下圖顯示了Tika的四個模塊的體系結(jié)構(gòu):
- 語言檢測機制。
- MIME檢測機制。
- Parser接口。
- Tika Facade 類.
語言檢測機制
每當(dāng)一個文本文件被傳遞到Tika,它將檢測在其中的語言。它接受沒有語言的注釋文件和通過檢測該語言添加在該文件的元數(shù)據(jù)信息。
支持語言識別,Tika 有一類叫做語言標(biāo)識符在包org.apache.tika.language及語言識別資料庫里面包含了語言檢測從給定文本的算法。Tika 內(nèi)部使用N-gram算法語言檢測。
MIME檢測機制
Tika可以根據(jù)MIME標(biāo)準檢測文檔類型。Tika默認MIME類型檢測是使用org.apache.tika.mime.mimeTypes。它使用org.apache.tika.detect.Detector 接口大部分內(nèi)容類型檢測。
內(nèi)部Tika使用多種技術(shù),如文件匹配替換,內(nèi)容類型提示,魔術(shù)字節(jié),字符編碼,以及其他一些技術(shù)。
解析器接口
org.apache.tika.parser 解析器接口是Tika解析文檔的主要接口。該接口從提取文檔中的文本和元數(shù)據(jù),并總結(jié)了其對外部用戶愿意寫解析器插件。
采用不同的具體解析器類,具體為各個文檔類型,Tika 支持大量的文件格式。這些格式的具體類不同的文件格式提供支持,無論是通過直接實現(xiàn)邏輯分析器或使用外部解析器庫。
Tika Facade 類
使用的Tika facade類是從Java調(diào)用Tika的最簡單和直接的方式,而且也沿用了外觀的設(shè)計模式。可以在 Tika API的org.apache.tika包Tika 找到外觀facade類。
通過實現(xiàn)基本用例,Tika作為facade的代理。它抽象了的Tika庫的底層復(fù)雜性,例如MIME檢測機制,解析器接口和語言檢測機制,并提供給用戶一個簡單的接口來使用。
Tika的特點
-
統(tǒng)一解析器接口:Tika封裝在一個單一的解析器接口的第三方解析器庫。由于這個特征,用戶逸出從選擇合適的解析器庫的負擔(dān),并使用它,根據(jù)所遇到的文件類型。
-
低內(nèi)存占用:Tika因此消耗更少的內(nèi)存資源也很容易嵌入Java應(yīng)用程序。也可以用Tika平臺像移動那樣PDA資源少,運行該應(yīng)用程序。
-
快速處理:從應(yīng)用連結(jié)內(nèi)容檢測和提取可以預(yù)期的。
-
靈活元數(shù)據(jù):Tika理解所有這些都用來描述文件的元數(shù)據(jù)模型。
-
解析器集成:Tika可以使用可在單一應(yīng)用程序中每個文件類型的各種解析器庫。
-
MIME類型檢測:?Tika可以檢測并從所有包括在MIME標(biāo)準的媒體類型中提取內(nèi)容。
-
語言檢測:?Tika包括語言識別功能,因此可以在一個多語種網(wǎng)站基于語言類型的文檔中使用。
Tika的功能
Tika支持多種功能:
- 文檔類型檢測
- 內(nèi)容提取
- 元數(shù)據(jù)提取
- 語言檢測
文件類型檢測
Tika使用不同的檢測技術(shù),檢測給它的文件的類型。
內(nèi)容提取
Tika有一個解析器庫,可以分析各種文檔格式的內(nèi)容,并提取它們。然后檢測所述文檔的類型,它從解析器庫選擇的適當(dāng)?shù)姆治銎?#xff0c;并傳遞該文檔。不同類別的Tika方法來解析不同的文件格式。
元數(shù)據(jù)提取
隨著內(nèi)容,Tika提取具有相同的程序的文件的元數(shù)據(jù)中的內(nèi)容的提取。對于某些文件類型,Tika有接口類提取元數(shù)據(jù)。
語言檢測
在內(nèi)部,Tika如下像一個n-gram算法來檢測所述內(nèi)容的語言的給定文檔中。Tika取決于類,如語言識別和Profiler的語言識別。
標(biāo)簽:TIKA架構(gòu)????TIKA????架構(gòu)???? 本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或編譯
歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處,尊重他人勞動共創(chuàng)優(yōu)秀實例教程
轉(zhuǎn)載請注明:文章轉(zhuǎn)載自: 易百教程 [ http:/www.yiibai.com]
本文標(biāo)題: TIKA架構(gòu)
本文地址: http://www.yiibai.com/tika/tika_architecture.html
總結(jié)
- 上一篇: 香港部分超市因内地游客抢购奶粉发出限购令
- 下一篇: 正则只保留括号里的内容