tableau中文版教程pdf_PDF 文件
本文介紹如何將 Tableau 連接到 .pdf 文件數據并設置數據源。
注意:Tableau 不支持從右到左 (RTL) 的語言。如果您的 PDF 包含 RTL 文本,則字符可能會以相反順序顯示在 Tableau 中。
進行連接并掃描文檔表格
打開 Tableau 后,在“連接”下面,單擊“PDF 文件”。
選擇要連接到的文件,然后單擊“打開”。
在“掃描 PDF 文件”對話框中,指定想要 Tableau 掃描表格的文件中的頁面。您可以選擇掃描所有頁面、僅單個頁面或一系列頁面中的表格。
注意:?類似于大多數 PDF 閱讀器,掃描將文件的第一頁計為“第 1 頁”。掃描表格時,請指定 PDF 閱讀器顯示的頁碼,而不是文檔本身中可能使用的頁碼,該頁面可能從第 1 頁開始,也可能不從第 1 頁開始。
例如,假設您想要使用下圖中的“表 1”。PDF 閱讀器顯示一個數字,而 .pdf 文件顯示其他數字。若要正確掃描此表,請指定 PDF 閱讀器顯示的頁碼。在此示例中,您指定“第 15 頁”。
在數據源頁面上,執行下列操作:
(可選)在頁面頂部選擇默認數據源名稱,然后輸入要在 Tableau 中使用的唯一數據源名稱。例如,使用可幫助其他數據源用戶推斷出要連接的數據源的數據源命名約定。 默認名稱是基于文件名自動生成的。
如果文件包含一個表,請單擊工作表標簽開始進行分析。否則,從左窗格中將表拖到畫布上,然后單擊工作表標簽以開始分析。
關于左側窗格中的表格
在 .pdf 文件中識別的表將被賦予唯一名稱,并在掃描后顯示在左側窗格中。例如,您可能會看到像“第 1 頁,表 1.”這樣的表名稱。表名稱的第一部分指明 .pdf 文件中表格源自其中的頁面。表名稱的第二部分指明識別的表順序。如果 Tableau 在一頁中識別出了多個表,則表名稱的第二部分可能指明以下兩項之一:
Tableau 在頁面上識別出了另一個唯一的表或子表。
Tableau 采用另一種方式解讀了頁面上的表。Tableau 可能會對表提供多種解讀,具體情況取決于該表在 .pdf 文件中的呈現方式。
PDF 文件數據源示例
以下是 PDF 文件數據源的示例:
獲取更多數據
通過添加更多表或連接到不同數據庫中的數據,將更多數據提供到數據源中。
從當前文件添加更多數據:
從左窗格中,將其他表拖到畫布上,以使用聯接或并集合并數據。有關詳細信息,請參見聯接數據或合并數據。
如果在以上所列過程的步驟 3 中掃描的頁面未在左窗格中生成您所需的表,請單擊 PDF 文件連接旁邊的下拉箭頭,然后單擊“重新掃描 PDF 文件”。此選項允許您創建新的掃描,以便您可以在 .pdf 文件中指定不同的頁面來掃描表。
從不同數據庫中添加更多數據:在左窗格中,單擊“連接”旁邊的“添加”。有關詳細信息,請參見聯接數據。
如果左窗格中未列出您需要的連接器,請選擇“數據”>“新數據源”以添加新數據源。有關詳細信息,請參見混合您的數據。
設置表選項
您可以設置表選項。在畫布上,單擊表下拉箭頭,然后指定數據在第一行中是否包括字段名稱。如果是這樣,這些名稱將成為 Tableau 中的字段名稱。如果未包括字段名稱,Tableau 會自動生成這些名稱。您隨后可以對字段進行重命名。
使用 Data Interpreter 清理您的數據
如果 Tableau 檢測到它可以幫助優化數據源以進行分析,則會提示您使用數據解釋器。數據解釋器能夠檢測您可以使用的子表,并且能夠刪除以后可能會在分析中引起問題的唯一格式。有關詳細信息,請參見使用 Data Interpreter 清理 Excel、CSV、PDF 和 Google Sheets 中的數據。
合并 .pdf 文件中的表
您可以在文件中合并表。有關合并的詳細信息,請參見合并數據。
使用通配符搜索來合并表時,結果范圍限定為在連接到的初始文件中掃描的頁面。例如,假設您具有三個文件:A.pdf、B.pdf 和 C.pdf。您連接到的第一個文件是 A,并且將表的掃描限制為第 1 頁。當使用通配符搜索來合并文件 B 和 C 中的表時,并集中包含的其他表只能來自 B 的第 1 頁和 C 的第 1 頁。
使用 .pdf 文件的提示
以下提示可幫助您在 Tableau 中使用 .pdf 文件。
使用 PDF 文件連接器以僅識別 .pdf 文件中的表。
PDF 文件連接器的主要目標是在 .pdf 文件中查找和標識表。因此,它會忽略文件中似乎不屬于表格的任何其他信息,包括標題、說明和腳注。如果相關數據存儲在這些區域之一(如表標題)中,您可以使用 Tableau 先將 .pdf 文件數據導出到 .csv 文件中,手動添加存儲在表標題中的數據,然后改為連接到 .csv 文件。有關詳細信息,請參見將數據導出為 .csv 文件。
使用標準表。
通常,Tableau 對使用表格格式的標準表的處理效果最好。
理想情況下,.pdf 文件中的表在一行中具有列標題,在一行中具有行值,如下面的示例中所示。
表中或表周圍使用的顏色和陰影可能會影響表的識別方式。
具有獨特格式設置的表可能需要在 Tableau 之外進行一些清理或手動編輯。獨特的格式設置可能包括分層標題、跨多行的標題名稱、跨多行的行值、斜置標題和堆疊的表,如下面的示例中所示。
注意:Tableau 不支持連接到掃描(光學字符識別)軟件生成的 .pdf 文件。
驗證數據。
確保驗證 Tableau 在 .pdf 文件中標識的表中的數據。您可以使用數據網格或結果工作簿(如果您使用了數據解釋器)來驗證數據。
避免跨多頁的表。
如果 .pdf 文件包含跨多頁的表,Tableau 會將該表解讀為多個表。若要解決此問題,請使用并集來合并這些表。有關詳細信息,請參見合并數據。
重命名其文件名包含 unicode 字符的 .pdf 文件。
連接到文件名中包含 unicode 字符的 .pdf 文件后,您可能會看到以下錯誤。
若要解決此問題,請使用非 unicode 字符重命名文件,并再次連接到 .pdf 文件。
不要使用密碼保護的 .pdf 文件。
連接到 .pdf 文件并在其中掃描表之后,您可能會看到以下錯誤。
如果 .pdf 文件受密碼保護,并且 Tableau 無法訪問其內容,則會顯示此錯誤。Tableau 不支持連接到密碼保護的 .pdf 文件。
以不同方式或不正確方式解讀的別名值。
在數據網格中,您可能會注意到,某些值的解讀方式與 .pdf 文件不同。通過使用別名來重命名字段內的特定值,您可以糾正這種解讀。
例如,假設您在連接到 .pdf 文件后看到下表。某些州/省/市/自治區被解讀為小寫形式,以藍色突出顯示。
通過使用別名將小寫形式的縮寫更改為大寫形式的縮寫,您可以解決此問題。為此,請單擊列名稱旁邊的下拉箭頭,并選擇“別名”。
解決解讀為表值的列標題。
在數據網格中,您可能還會注意到 .pdf 文件中的某些列標題反而被解釋為表值。如果您的 .pdf 文件包含具有唯一格式或層次標題的表,則可能會發生這種情況。在這種情況下,先嘗試使用數據解釋器。如果 Data Interpreter 未解決該問題,請考慮手動將列重命名其適當的名稱,并使用數據源篩選器來篩選被視為值的標題名稱。
例如,假設您在連接到 .pdf 文件后看到下表。.pdf 文件中的表標題被解釋為表值,以藍色突出顯示。
一種解決此類標題問題的方法是按照類似于以下的步驟進行操作:
雙擊列名稱,然后將 F1 重命名為“Year”(年份)。對 F2 至 F4 重復此步驟,分別命名為“Coal”(煤炭)、“Gas”(天然氣)和“Oil”(石油)。
單擊“Year”(年份)列的數據類型圖標,并將其更改為數值數據類型。這會導致將此列中的非數值轉換為空值。
在數據源頁面的右上角,單擊“添加”,單擊“添加”按鈕,然后選擇“Year”(年份)字段。
在“篩選器”對話框中,同時選中“Null”和“排除”復選框。
“Year”(年份)列中包含 Null 值的行將從數據網格中刪除,從而影響表中其他列的行。
關于 .ttde 和 .hhyper 文件
在計算機的目錄中導航時,您可能會注意到 .ttde 或 .hhyper 文件。當您創建連接到數據的 Tableau 數據源時,Tableau 會創建 .ttde 或 .hhyper 文件。此文件(也稱為陰影數據提取)用于幫助提高 Tableau Desktop 中的數據源加載速度。盡管陰影數據提取包含類似于標準 Tableau 數據提取的基礎數據和其他信息,但陰影數據提取將以其他格式保存,并且無法用于恢復數據。
在某些情況下,您可能需要從計算機中刪除陰影數據提取。有關詳細信息,請參見 Tableau 知識庫中的由于 TTDE 文件的緣故導致磁盤空間不足。
另請參見
設置數據源 – 向此數據源中添加更多數據,或者在分析數據之前準備數據。
構建圖表和分析數據 – 開始數據分析。
總結
以上是生活随笔為你收集整理的tableau中文版教程pdf_PDF 文件的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 已经无法合并还报请合并git_Git不能
- 下一篇: vue实现竖式步骤条_手把手教你实现一个