java提取word中的文字_Java 提取Word中的文本和图片
本文將介紹通過Java來提取或讀取Word文檔中文本和圖片的方法。這里提取文本和圖片包括同時提取文檔正文當中以及頁眉、頁腳中的的文本和圖片。
使用工具:Free?Spire.Doc for Java (免費版)
Jar文件導入方法(參考):
方法1:下載jar文件包。下載后解壓文件,并將lib文件夾下的Spire.Doc.jar文件導入到java程序。導入效果參考如下:
方法2:可通過maven導入。參考導入方法。
測試文檔如下:
Java代碼示例(供參考)
【示例1】提取Word中的文本import com.spire.doc.*;
import java.io.FileWriter;
import java.io.IOException;public class ExtractText {
public static void main(String[] args) throws IOException{
//加載測試文檔
Document doc = new Document();
doc.loadFromFile("test.docx");
//獲取文本保存為String
String text = doc.getText();
//將String寫入Txt
writeStringToTxt(text,"提取文本.txt");
}
public static void writeStringToTxt(String content, String txtFileName) throws IOException {
FileWriter fWriter= new FileWriter(txtFileName,true);
try {
fWriter.write(content);
}catch(IOException ex){
ex.printStackTrace();
}finally{ ? ? ? ? ? ?try{
fWriter.flush();
fWriter.close();
} catch (IOException ex) {
ex.printStackTrace();
}
}
}
}
文本提取結果:
【示例2】提取Word中的圖片
import com.spire.doc.Document;
import com.spire.doc.documents.DocumentObjectType;
import com.spire.doc.fields.DocPicture;
import com.spire.doc.interfaces.ICompositeObject;
import com.spire.doc.interfaces.IDocumentObject;
import javax.imageio.ImageIO;
import java.awt.image.RenderedImage;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.LinkedList;
import java.util.List;
import java.util.Queue;public class ExtractImg {
public static void main(String[] args) throws IOException {
//加載Word文檔
Document document = new Document();
document.loadFromFile("test.docx");
//創建Queue對象
Queue nodes = new LinkedList();
nodes.add(document);
//創建List對象
List images = new ArrayList();
//遍歷文檔中的子對象
while (nodes.size() > 0) {
ICompositeObject node = (ICompositeObject) nodes.poll();
for (int i = 0; i < node.getChildObjects().getCount(); i++) {
IDocumentObject child = node.getChildObjects().get(i);
if (child instanceof ICompositeObject) {
nodes.add((ICompositeObject) child);
//獲取圖片并添加到List
if (child.getDocumentObjectType() == DocumentObjectType.Picture) {
DocPicture picture = (DocPicture) child;
images.add(picture.getImage());
}
}
}
} ? ? ? ?//將圖片保存為PNG格式文件
for (int i = 0; i < images.size(); i++) {
File file = new File(String.format("圖片-%d.png", i));
ImageIO.write((RenderedImage) images.get(i), "PNG", file);
}
}
}
圖片提取結果:
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的java提取word中的文字_Java 提取Word中的文本和图片的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 铁皮石斛花茶的功效与作用、禁忌和食用方法
- 下一篇: 鲅鱼的功效与作用、禁忌和食用方法