數據聯接(一)

风起于青萍之末 2024-09-19 07:22 3次浏览 0 条评论 taohigo.com

1、數據聯接:—備註:針對數據源來自同一張表的情況

# ETL操作:是指數據提取、轉換、加載

第一種:通過直接方式直連數據源,比如連接數據庫導入、連接Excel文件導入等方式。(這裡不再細說)

第二種:復制粘貼輸入數據

操作:數據菜單—粘貼數據 適用於比較靈活的獲取到一些數據(比如某個網頁上復制的數據…),然後想把這些數據導入tableau中進行分析的場景。 #通過復制粘貼操作,在臨時文件夾中會創建一個以“Clipboard”開頭的文本文件,作為該數據的源文件。具體操作實例如下:

  • 操作步驟1:選擇需要粘貼的數據:(這裡是來自Excel中的數據)
  • 操作步驟2:打開tableau工作表頁面:找到菜單欄“數據” — “粘貼”,結果就如下所示:

2、數據聯接:—備註:針對數據源非同一張表的情況

第一種:多表聯接(同一個數據源的多張表聯接)

實例如下:數據源是:訂單(多個連接),其有三個數據表子:訂單表、退貨表、銷售人員表,具體聯接操作如下:一是從數據源頁面進行操作:將要連接的兩個表拖到拖到指定的區域。二是從工作表頁面進行操作:從菜單“數據”–數據源名稱—“編輯數據源”。

#默認連接方式:自動識別連接字段。最終聯接結果如下所示:

#選擇指定表聯接方式操作。 聯接類型有4種:內部聯接、左側聯接、右側聯接、完全外部聯接,默認是內部聯接。

一般tableau會自動從多張表中選擇同名的字段作為關聯字段;如果系統無法自動識別相關對應的字段,也可以手動選擇關聯字段,如下圖所示:

第二種:多數據源融合(數據源不同的表之間聯接)

#當需要聯接的數據表不屬於同一個數據源時,多表聯接的方式將無法實現多個數據表的關聯。這種情況下,需要通過添加數據源的方式實現數據融合。具體操作如下:

  • 操作步驟1:菜單“數據”—“編輯關系”
  • 操作步驟2、3如下:
  • 聯接結果如下:

3、行列轉換:

數據透視表的使用:當遇到導入的數據需要將某幾列的字段合並到某一列的不同值時,可以使用透視表進行實現。

具體操作:按住ctr,同時選中需要轉換的列,單擊已選擇的任意一列右側的按鈕,在彈出的對話框中選擇“數據透視表”。然後就可以對新字段進行重新命名就完成處理。

4、數據提取:

數據提取作用:通過創建樣本數據的數據提取,減少數據量,避免在進行視圖設計長時間等待查詢響應,而在視圖設計結束後,可以切回到整個數據源。

數據提取的操作:1)在主頁面選擇菜單“數據”—“數據源名稱”—“提取數據”;選擇菜單“數據”—“數據源名稱”—“編輯數據源”—“提取”—“編輯”。2)在新建數據源的過程中,將連接方式從“實時”模式更改為“提取”模式。 數據提取的結果:提取的數據將以.tde格式保存。

數據提取的移除:具體操作是選擇“數據”—“數據源名稱”—“數據提取”。註意:當刪除數據提取時,可以選擇僅從工作簿刪除數據提取,或者刪除數據提取文件,後者將會刪除在硬盤中的數據提取文件。

刷新數據提取:具體操作是選擇“數據”—“數據源名稱”—“刷新”。數據提取刷新的兩種方式:一是完全數據提取,即將所有數據替換為基礎數據源中的數據。(確保瞭數據提取的精確,但也增加瞭數據庫開銷)。二是增量數據提取,即可以將數據提取設置為僅添加自上次提取數據以來新增的行,而不是每次重新生成整個數據提取。 —關於增量數據提取: 首先改變數據源的提取方式,選擇“數據”—“數據源名稱”—“提取數據”,然後在提取數據對話框中選擇“所有行”和“增量刷新”,隻有選擇提取數據庫中的所有行後,才能定義增量刷新,再然後在數據庫中指定將用於標識新行的字段。

向數據提取添加行:從文件或從數據源添加。添加新數據行的前提是該文件或數據源中的列必須與數據提取中的列相匹配。 具體操作:方式一:從文件添加數據,選擇“數據”—“數據源名稱”—“數據提取”—“從文件添加數據”。 方式二:從數據源添加數據,“數據”—“數據源名稱”—“數據提取”—“從數據源添加數據”。

優化數據提取:選擇“數據”—“數據源名稱”—“數據提取”—“優化”。 具體方式:一是計算字段的預處理,即tableau提前完成計算字段的預處理,並存儲在數據提取文件中,當在視圖中進行查詢時,tableau可以直接使用計算字段結果,不必再次計算。二是加速視圖,如果在工作簿內設置瞭篩選器操作,那麼tableau必須基於源工作表的篩選器,以此計算目標視圖的篩選器取值范圍。進行數據優化後,tableau將創建一個視圖以計算可能的篩選值並緩存這些值,從而提高查詢速度。

5、並集:

並集:相當於數據庫中的union操作,特點就是結構相同的多份數據上下拼接起來形成一份數據表。

新建並集會有兩種情況:1)特定(手動):適用於結構相同的數據在同一個Excel文件的不同sheet中,就可以把表格中的多個sheet直接拖放到並集窗口,自動完成合並。2)通配符(自動):工作表處填每個文件裡面需要合並工作表的名字,如果不一樣可以使用“xxx*”(xx代表需要合並的工作表共同擁有的名稱字符);工作簿處填要合並的工作薄具有相同名稱,或者後綴一樣的則可以是“xxx*”(xx代表需要合並的工作表共同擁有的名稱字符)。註意:關於搜索范圍,tableau可以搜索當前文件夾以及它的子文件夾、父文件夾中的文件。若你的文件都在一個文件夾裡,就可以不用勾選後面兩個復選框。

如下是一個示例展示:

6、關於源數據帶有表頭、空行壓縮等問題的處理:

在導入數據時,勾選“使用數據解釋器”就可以進行臟數據的過濾。具體如下示例所示:

—-後續在慢慢看到重要的知識點/相關的問題,再更新~