返回部落格
教學指南閱讀時間 14 分鐘

散佈圖與相關係分析:資料分析師的完整指南

精通散佈圖進行相關係分析。學習識別變數關係、添加趨勢線、解讀圖形模式,避免雙變數資料視覺化的常見錯誤。

艾莎・帕特爾博士, 資料科學研究員

艾莎・帕特爾博士

資料科學研究員

Share:
專業散佈圖視覺化展示正向相關係與趨勢線,採用 ChartGen 藍色系配色,示範資料分析師的相關係分析技術
掌握散佈圖技術以進行相關係分析與迴歸建模

散佈圖是相關係分析的核心工具,專門用來視覺化兩個連續變數之間的關係。然而我審查過無數分析案例,經常發現散佈圖被誤解、設計不良,或是在該使用時未被妥善運用。這份完整指南將徹底改變您運用散佈圖進行資料分析的方式。

什麼是散佈圖?

散佈圖(亦稱 XY 圖、散點圖或散布圖)將兩個變數的數值以點狀形式呈現在二維座標系統中。每個點代表一筆觀察值:

  • X 軸(水平方向): 自變數或預測變數
  • Y 軸(垂直方向): 應變數或結果變數

散佈圖的強大之處在於能揭露表格或摘要統計中無法看見的隱藏模式。

相關係的本質解析

深入散佈圖技術前,讓我們先理解要尋找什麼。

相關係方向

正向相關係: X 增加時,Y 傾向同步增加

  • 點位分佈呈現左下到右上的趨勢
  • 範例:身高與體重、教育程度與收入、廣告投放與銷售額

負向相關係: X 增加時,Y 傾向減少

  • 點位分佈呈現左上到右下的趨勢
  • 範例:價格與需求量、車齡與價值、距離與訊號強度

無相關係: 無明顯關聯模式

  • 點位隨機散佈無特定規律
  • 範例:鞋碼與智商、出生月份與身高

相關係強度

強相關係(|r| > 0.7): 點位緊密聚集在假想線周圍

中度相關係(0.4 ≤ |r| ≤ 0.7): 有明顯趨勢但點位較分散

弱相關係(|r| < 0.4): 模式模糊,點位散佈範圍廣

無相關係(r ≈ 0): 隨機散佈,無可辨識模式

相關係數(r)

皮爾森相關係數範圍介於 -1 到 +1:

  • r = 1: 完全正向相關係
  • r = 0: 無線性相關係
  • r = -1: 完全負向相關係

重要提醒: 相關係僅衡量線性關係。散佈圖能揭露相關係數完全忽略的非線性模式。

何時使用散佈圖

理想應用情境

  1. 探索兩個連續變數間的關係
  2. 識別偏離整體模式的異常值
  3. 偵測資料中的群集或子群組
  4. 進行迴歸分析前的假設驗證
  5. 向利害關係人展示相關係結果

不適用情境

  • 類別變數: 改用群組長條圖
  • 時間序列資料: 使用折線圖呈現時間模式
  • 超大型資料集(>10,000 點): 考慮密度圖或六邊形分箱圖
  • 超過兩個變數: 使用氣泡圖或小型多圖

解讀散佈圖模式

模式 1:線性關係

點位沿直線路徑分佈。這是經典的相關係模式。

強烈正向線性:

  • 點位形成左下至右上的緊密帶狀
  • r 值接近 +1
  • 範例:學習時數與考試成績

解讀要訣: 線性模式暗示 X 每增加一單位,Y 會以固定量變化。

模式 2:非線性關係

點位沿曲線路徑分佈。常見形態包括:

二次曲線(U 型或倒 U 型):

  • 關係方向發生轉折
  • 範例:壓力與表現(耶基斯-多德森定律)

對數曲線:

  • 初期快速變化後趨於平緩
  • 範例:練習時間與技能提升

指數曲線:

  • 初期緩慢變化後加速增長
  • 範例:隨時間累積的複利

關鍵洞察: 務必繪製資料圖形!接近零的相關係數可能隱藏強烈的非線性關係。

模式 3:異質變異性

Y 的變異程度隨 X 值改變。散佈呈現「扇形展開」或「漏斗狀」。

扇形模式:

  • 低 X 值區域點位緊密聚集
  • 高 X 值區域點位廣泛分散
  • 範例:收入與支出(高收入者消費變異性較大)

重要性: 異質變異性違反迴歸分析假設,需要特殊處理。

模式 4:群集現象

散佈圖中出現明顯分群。

多重群集:

  • 兩個以上獨立點群
  • 通常顯示資料中存在子群組
  • 範例:按性別群集的身高體重分佈

應對措施: 考慮分群獨立分析或加入分組變數。

模式 5:異常值

偏離主要模式的孤立點位。

異常值類型:

  • 高槓桿點: X 值的極端值
  • 高影響點: 顯著改變趨勢線走向
  • 隨機異常值: 資料輸入錯誤或真實異常

務必調查異常值: 可能是錯誤,也可能是最值得關注的資料點。

建立有效的散佈圖

步驟 1:資料準備

基本資料檢查:

  • 處理或調查缺失值
  • 檢查資料輸入錯誤
  • 確認單位與尺度
  • 考慮必要轉換(對數、平方根)

步驟 2:選擇適當座標軸

X 軸(自變數):

  • 疑似影響另一變數的因素
  • 可能控制的變數
  • 時間序列中優先測量的變數

Y 軸(應變數):

  • 研究中的結果變數
  • 隨 X 變動而反應的變數

尺度考量:

  • 僅在有意義時包含零點
  • 使用一致的刻度間距
  • 指數關係考慮對數尺度

步驟 3:繪製資料點

點位大小:

  • 基本散佈圖使用固定大小
  • 氣泡圖使用可變大小(編碼第三變數)
  • 大型資料集使用較小點位

點位樣式:

  • 多數情況使用實心圓點
  • 點位重疊時使用空心圓點
  • 不同類別使用相異形狀(謹慎使用)

透明度設定:

  • 重疊點位添加透明度(alpha)
  • 50-70% 不透明度適合中度重疊

步驟 4:添加趨勢線(適當時機)

線性迴歸線:

  • 顯示最佳擬合直線
  • 包含 R² 值顯示擬合優度
  • 添加信賴區間帶呈現不確定性

LOESS/LOWESS 曲線:

  • 非參數平滑曲線
  • 揭露非線性模式
  • 選擇模型前的探索利器

不應添加趨勢線時機:

  • 資料無明顯關係
  • 多重群集需要獨立趨勢線
  • 處於探索階段非確認關係

步驟 5:提升圖表可讀性

座標軸標籤:

  • 清晰具描述性的變數名稱
  • 包含測量單位
  • 使用句子形式書寫

圖表標題:

  • 說明展示的關係
  • 包含背景資訊(期間、族群)

註解標記:

  • 標示顯著異常值
  • 添加參考線(平均值、閾值)
  • 相關時包含相關係數

進階散佈圖技巧

技巧 1:氣泡圖

透過點位大小變化加入第三變數。

最佳應用:

  • 同時呈現數量與關係
  • 比較實體(國家、企業、產品)
  • 以大小表示時序新舊

設計要訣: 使用面積(非半徑)與數值成正比。人類視覺感知面積而非直徑。

技巧 2:色彩編碼散佈圖

透過顏色加入類別資訊。

最佳應用:

  • 比較不同群組
  • 識別群集現象
  • 揭露模式中的次模式

限制: 最佳辨識度為 5-7 種顏色,使用色盲友善配色。

技巧 3:小型多圖

建立散佈圖網格進行多面向比較。

最佳應用:

  • 跨類別比較關係
  • 展示時間演變
  • 揭露交互作用

設計要訣: 保持所有子圖座標軸一致以利比較。

技巧 4:邊緣分佈圖

在邊緣添加直方圖或密度圖。

最佳應用:

  • 理解單變數分佈
  • 在單變數背景中偵測異常
  • 識別雙峰分佈

技巧 5:六邊形分箱與密度圖

適用點位嚴重重疊的大型資料集。

六邊形分箱圖: 將點聚合至六邊形箱體,以數量著色

密度圖: 以連續漸層顯示點位密度

使用時機: 超過 1,000-5,000 點(依圖表尺寸調整)

散佈圖解讀架構

四步驟解讀流程

步驟 1:整體模式辨識

  • 是否存在關聯?
  • 方向為何(正/負)?
  • 形態為何(線性/曲線)?
  • 強度如何(緊密/分散)?

步驟 2:模式偏離檢視

  • 有無異常值?
  • 有無群集現象?
  • 變異是否隨 X 改變?

步驟 3:背景脈絡驗證

  • 模式是否符合理論預期?
  • 是否存在干擾變數?
  • 是否可能為因果關係?

步驟 4:量化分析

  • 計算相關係數
  • 擬合適當迴歸模型
  • 計算信賴區間

常見散佈圖錯誤

錯誤 1:混淆相關係與因果關係

強烈相關係散佈圖不等於因果證明。隱藏變數可能同時影響 X 與 Y。

經典案例: 冰淇淋銷量與溺水事故高度相關。隱藏變數?夏季高溫。

錯誤 2:忽略非線性模式

r = 0 的相關係數可能隱藏完美的二次關係。務必檢視圖形,而非僅看數字!

錯誤 3:超出資料範圍推論

若資料涵蓋 X 值 10-50,請勿預測 X = 100 的情況。關係可能在觀察範圍外改變。

錯誤 4:點位過度堆疊

數千點位會使散佈圖變成無法辨識的黑塊。使用透明度、密度圖或抽樣技術。

錯誤 5:選擇性刪除異常值

為「改善」相關係而刪除異常值是資料操縱。調查異常值成因,無正當理由勿隨意刪除。

實務案例分析

案例 1:銷售績效分析

問題: 銷售培訓能否提升業績?

變數:

  • X:完成培訓時數
  • Y:季度銷售額

發現:

  • 40 小時內呈正向相關(r = 0.65)
  • 超過 40 小時出現平台效應(邊際效益遞減)
  • 識別三名異常值:無論培訓時數皆表現頂尖

行動建議: 建議 40 小時培訓上限,研究異常值成功因素。

案例 2:客戶滿意度與營收關聯

問題: 滿意度高的客戶是否消費更多?

變數:

  • X:淨推薦值(NPS)
  • Y:客戶年消費額

發現:

  • 整體弱相關(r = 0.28)
  • 按客戶群分色後顯現清晰群集
  • 企業客戶:強相關(r = 0.71)
  • 中小企業客戶:無相關(r = 0.08)

行動建議: 集中滿意度提升資源於影響營收的企業客戶群。

案例 3:網站效能優化

問題: 頁面載入時間如何影響跳出率?

變數:

  • X:頁面載入時間(秒)
  • Y:跳出率(百分比)

發現:

  • 強烈正向相關(r = 0.78)
  • 關係呈對數型態(1-3 秒急遽上升,後趨平緩)
  • 行動版與桌機版曲線不同(分色顯示)

行動建議: 優先將載入時間壓縮至 3 秒內,行動版優化至關重要。

使用 ChartGen 建立散佈圖

ChartGen 簡化散佈圖建立流程:

  1. 匯入包含兩欄以上數值的資料
  2. 從視覺化選項選擇「散佈圖」
  3. 將變數對應至 X/Y 軸
  4. 自訂設定:

- 添加趨勢線(線性或 LOESS)

- 依類別色彩編碼

- 調整氣泡圖點位大小

- 加入相關係統計量

  1. 匯出為簡報就緒格式

ChartGen 自動化功能:

  • 建議適當座標軸尺度
  • 計算並顯示相關係數
  • 識別潛在異常值
  • 依據資料模式提供趨勢線選項

結論

散佈圖外觀簡單卻蘊含強大洞察力。探索連續變數關係時,這經常是首選工具。

核心要點:

  • 永遠先視覺化: 勿僅依賴相關係數
  • 尋找線性以外的模式: 真實世界關係常呈曲線或群集
  • 深入調查異常值: 可能是錯誤,也可能是關鍵洞察
  • 考量背景脈絡: 相關不等同因果
  • 為清晰度設計: 適當標籤、尺度與註解使洞察易懂易用

精通散佈圖,您將掌握資料分析的核心能力——從數字中看見隱藏關係的慧眼。

散佈圖相關係分析資料視覺化迴歸分析雙變數分析

Ready to create better charts?

Put these insights into practice. Generate professional visualizations in seconds with ChartGen.

Try ChartGen Free