PHP读取PDF内容方法
PHP讀取PDF內容方法
- 讀取PDF工具安裝教程
- windows下安裝
- windows下使用方法
- php調用方法
讀取PDF工具安裝教程
我這邊使用的是 xpdf工具,是使用最好的一個讀取工具,讀取的中文不會有亂碼出現。
xpdf安裝配置
下載:
根據系統選擇下載 https://www.xpdfreader.com/download.html
下載xpdf和中文字體,分別解壓縮。
文件名: xpdf-tools-win-4.03.zip
中文支持庫名:xpdf-chinese-simplified.tar.gz
windows下安裝
建立 xpdf 根目錄 d:\tool\xpdf
(1)并將xpdf-tools-win-4.03\bin64目錄下所有文件復制到 d:\xpdf 下。
(2)將xpdf-chinese-simplified直接解壓出的 整個文件夾復制到 d:\xpdf 下。
(3) 復制 xpdf-tools-win-4.03\doc 路徑下的 sample-xpdfrc 文件到 d:\tool\xpdf 下,并改名為 xpdfrc。
(4)修改文件 xpdfrc 第73行,將 textEncoding UTF-8 注釋打開,指定編碼為UTF-8,
(5)并在下面增加 textPageBreaks no 參數,意思是在pdf文檔的兩頁間不加入分行符。
(6)在此文件最后增加以下內容,聲明中文字體文件
#----- begin Chinese Simplified support package (2011-sep-02)
cidToUnicode Adobe-GB1 D:/tool/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN D:/tool/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
unicodeMap EUC-CN D:/tool/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
unicodeMap GBK D:/tool/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
cMapDir Adobe-GB1 D:/tool/xpdf/xpdf-chinese-simplified/CMap
toUnicodeDir D:/tool/xpdf/xpdf-chinese-simplified/CMap
#displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf
#fontFileCC Adobe-GB1 /usr/…/gkai00mp.ttf
#----- end Chinese Simplified support package
windows下使用方法
windows使用命令:
D:\tool\xpdf\pdftopng.exe -f 1 -l 1 D:\test.pdf D:\testpng
說明:進入D:\tool\xpdf 文件夾中,運行 pdftopng.exe -f 1 -l 1 D:\test.pdf D:\testpng。-f 1 是指從第一頁開始。 -l 1 是指第一頁結束,最后一個是生成的圖片名前綴叫testpng 最終會以testpng-000001.png的形式生成。
如果要導出文本用 pdftotext.exe命令。
php調用方法
<? $filename="D:/11/02261390000606560259.pdf ";//文件名稱及路徑 $content = shell_exec ( 'D:/tool/xpdf/pdftotext '.$filename .'-'); echo $content;?>還是看不明白的,可以加我QQ溝通,有需要爬取要求的也可以加我詳聊。
QQ: 315 987 20
總結
以上是生活随笔為你收集整理的PHP读取PDF内容方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql语法使用
- 下一篇: 有用的Copy-On-write,写时复