返回博客
教程14分钟阅读

散点图与相关性分析:数据分析师完全指南

掌握相关性分析中的散点图技术。学习识别变量关系、添加趋势线、解读数据模式,并避免双变量数据可视化的常见误区。

艾莎·帕特尔博士, 数据科学研究员

艾莎·帕特尔博士

数据科学研究员

Share:
采用ChartGen蓝色主题的专业散点图可视化,展示带趋势线的正相关性,呈现数据分析师的相关性分析技术
掌握用于相关性分析与回归建模的散点图技术

散点图是相关性分析的基石工具——用于可视化两个连续变量间关系的主要手段。然而,我审阅过无数误用、误读或设计不当的散点图分析案例。这份全面指南将彻底改变您运用散点图进行数据分析的方式。

什么是散点图?

散点图(又称XY图、散布图)通过二维坐标系中的点来展示两个变量的数值关系。每个点代表一个观测值,其中:

  • X轴(水平方向): 自变量或预测变量
  • Y轴(垂直方向): 因变量或结果变量

散点图的强大之处在于能揭示表格或汇总统计中无法察觉的潜在模式。

相关性的本质剖析

在深入散点图技术前,让我们先理解需要关注的核心要素。

相关性方向

正相关: 当X增加时,Y趋于增加

  • 数据点从左下方向右上方呈趋势分布
  • 示例:身高与体重、教育程度与收入、广告投入与销售额

负相关: 当X增加时,Y趋于减少

  • 数据点从左上方向右下方呈趋势分布
  • 示例:价格与需求、车龄与价值、距离与信号强度

无相关: 不存在稳定关系

  • 数据点随机散布,无规律可循
  • 示例:鞋码与智商、出生月份与身高

相关性强度

强相关(|r| > 0.7): 数据点紧密聚集在假想线周围

中等相关(0.4 ≤ |r| ≤ 0.7): 趋势清晰但存在分散

弱相关(|r| < 0.4): 模式模糊,显著分散

无相关(r ≈ 0): 随机散布,无可辨识模式

相关系数 (r)

皮尔逊相关系数取值范围为-1至+1:

  • r = 1: 完全正相关
  • r = 0: 无线性相关
  • r = -1: 完全负相关

重要提示: 相关系数仅衡量线性关系。散点图能揭示相关系数完全忽略的非线性模式。

何时使用散点图

理想应用场景

  1. 探索两个连续变量间的关系
  2. 识别偏离整体模式的异常值
  3. 检测数据中的聚类或子群组
  4. 验证回归分析前的假设条件
  5. 向利益相关者传达相关性发现

不适用场景

  • 分类变量: 改用分组条形图
  • 时间序列数据: 使用折线图展示时序模式
  • 超大数据集(>10,000点): 考虑密度图或六边形分箱图
  • 超过两个变量: 采用气泡图或小多图

解读散点图模式

模式1:线性关系

数据点沿直线路径分布,这是经典的相关模式。

强正线性相关:

  • 点集形成从左下至右上的紧密带状分布
  • r值接近+1
  • 示例:学习时长与考试成绩

解读要诀: 线性模式表明X每增加一个单位,Y会按固定量变化。

模式2:非线性关系

数据点沿曲线路径分布,常见形式包括:

二次型(U形或倒U形):

  • 关系方向发生转变
  • 示例:压力与绩效(耶基斯-多德森定律)

对数型:

  • 初始快速变化后趋于平缓
  • 示例:练习时长与技能提升

指数型:

  • 初始缓慢变化后加速增长
  • 示例:随时间累积的复利

关键洞察: 务必先绘制数据!接近零的相关系数可能掩盖强烈的非线性关系。

模式3:异方差性

Y值的方差随X值变化,散点呈“扇形展开”或“漏斗形”。

扇形展开模式:

  • 低X值区域点集紧密
  • 高X值区域点集分散
  • 示例:收入与消费(高收入者消费变异性更大)

重要性: 异方差性违反回归假设,需要特殊处理。

模式4:聚类现象

散点图中出现明显分组的点集。

多聚类现象:

  • 两个或更多独立的点云分布
  • 通常暗示数据中存在子群组
  • 示例:身高体重数据中的男女聚类

应对措施: 考虑分别分析各聚类,或添加分组变量。

模式5:异常值

偏离主要模式的孤立数据点。

异常值类型:

  • 高杠杆点: X值极端的点
  • 高影响力点: 显著改变趋势线的点
  • 随机异常值: 数据录入错误或真实异常情况

务必调查异常值: 它们可能是错误,也可能是最具价值的数据点。

创建有效的散点图

步骤1:数据准备

必要的数据检查:

  • 删除或调查缺失值
  • 检查数据录入错误
  • 核实单位与量纲
  • 考虑必要的数据转换(对数、平方根)

步骤2:选择合适的坐标轴

X轴(自变量):

  • 您认为影响其他变量的因素
  • 您可能控制的变量
  • 时间序列中首先测量的变量

Y轴(因变量):

  • 您研究的结果指标
  • 响应X变化的变量

尺度考量:

  • 仅当对数据有意义时才包含零点
  • 使用一致的刻度增量
  • 指数关系可考虑对数尺度

步骤3:绘制数据点

点的大小:

  • 基础散点图使用统一尺寸
  • 气泡图采用可变尺寸(编码第三变量)
  • 大型数据集使用较小点

点的样式:

  • 多数情况使用实心圆点
  • 点重叠时采用空心圆点
  • 分类数据慎用不同形状

透明度设置:

  • 为重叠点添加透明度(alpha值)
  • 50-70%不透明度适合中等重叠情况

步骤4:添加趋势线(适当时机)

线性回归线:

  • 显示最佳拟合直线
  • 包含R²值体现拟合优度
  • 添加置信区间带展示不确定性

LOESS/LOWESS曲线:

  • 非参数平滑方法
  • 揭示非线性模式
  • 模型选择前的有效探索工具

避免添加趋势线的情况:

  • 数据显示无明确关系
  • 多聚类需要单独拟合
  • 处于探索阶段而非确认关系

步骤5:提升可读性

坐标轴标签:

  • 清晰描述性的变量名称
  • 包含测量单位
  • 采用句子大小写格式

标题设计:

  • 阐明展示的关系本质
  • 包含背景信息(时间段、研究群体)

标注说明:

  • 标记显著异常值
  • 添加参考线(均值、阈值)
  • 相关时包含相关系数

高级散点图技术

技术1:气泡图

通过改变点的大小来编码第三个变量。

最佳适用:

  • 在展示关系的同时呈现量级信息
  • 比较不同实体(国家、企业、产品)
  • 时间序列(尺寸表示时效性)

设计技巧: 使用面积(而非半径)与数值成比例。人眼感知的是面积而非直径。

技术2:颜色编码散点图

通过颜色传递分类信息。

最佳适用:

  • 组间比较
  • 识别聚类
  • 揭示模式中的潜在模式

限制: 为保证清晰度最多使用5-7种颜色,选用色觉友好型配色方案。

技术3:小多图

创建散点图网格进行分面对比。

最佳适用:

  • 跨类别比较关系模式
  • 展示不同时间段的变化
  • 揭示交互效应

设计技巧: 保持所有子图坐标轴一致以确保可比性。

技术4:边缘分布图

在坐标轴边缘添加直方图或密度图。

最佳适用:

  • 理解单变量分布特征
  • 在单变量背景下识别异常值
  • 检测双峰分布

技术5:六边形分箱图与密度图

适用于点严重重叠的大型数据集。

六边形分箱图: 将点聚合至六边形箱体,按计数着色

密度图: 以连续渐变色彩显示数据集中程度

使用时机: 数据点超过1,000-5,000个(取决于绘图尺寸)

散点图解读框架

四步解读流程

步骤1:整体模式识别

  • 是否存在关联关系?
  • 相关方向如何(正/负)?
  • 呈现何种形态(线性/曲线)?
  • 关联强度多大(紧密/分散)?

步骤2:模式偏差检测

  • 是否存在异常值?
  • 是否存在聚类现象?
  • 方差是否随X值变化?

步骤3:背景合理性检验

  • 该模式是否符合理论预期?
  • 是否存在混淆变量?
  • 该关系是否可能具有因果性?

步骤4:量化分析

  • 计算相关系数
  • 拟合适当回归模型
  • 计算置信区间

常见散点图误区

误区1:将相关等同于因果

显示强相关的散点图不能证明因果关系。潜在变量可能同时解释X和Y的变化。

经典示例: 冰淇淋销量与溺水死亡人数高度相关。潜在变量?夏季高温。

误区2:忽视非线性模式

相关系数 r = 0 可能掩盖完美的二次关系。务必观察图形而不仅看数字。

误区3:超出数据范围外推

若数据覆盖X值范围为10-50,切勿对X=100进行预测。关系在观测范围外可能发生变化。

误区4:过度绘图

成千上万个点会使散点图变成无法辨识的黑色团块。善用透明度、密度图或抽样技术。

误区5:选择性剔除异常值

为“改善”相关性而删除异常值是数据操纵行为。调查异常值,但无正当理由不得删除。

散点图实践案例

案例1:销售绩效分析

研究问题: 销售培训能否提升收入?

变量设置:

  • X:完成的培训时长
  • Y:季度营收额

研究发现:

  • 40小时前呈正相关(r = 0.65)
  • 超过40小时出现平台效应(收益递减)
  • 识别三个异常值:无需培训仍表现优异的顶尖销售

行动建议: 建议40小时培训上限,深入探究异常值成功因素。

案例2:客户满意度与收入关系

研究问题: 更满意的客户是否消费更多?

变量设置:

  • X:净推荐值(NPS)
  • Y:年度客户消费额

研究发现:

  • 整体弱相关(r = 0.28)
  • 按客户细分颜色编码后显现清晰聚类
  • 企业客户:强相关(r = 0.71)
  • 中小企业客户:无相关(r = 0.08)

行动建议: 将满意度提升资源聚焦于对企业收入影响显著的客户细分。

案例3:网站性能优化

研究问题: 页面加载时间如何影响跳出率?

变量设置:

  • X:页面加载时间(秒)
  • Y:跳出率(百分比)

研究发现:

  • 强正相关(r = 0.78)
  • 关系呈对数特征(1-3秒内急剧上升后趋缓)
  • 移动端与桌面端呈现不同曲线(颜色编码显示)

行动建议: 优先将加载时间控制在3秒内,移动端优化至关重要。

使用ChartGen创建散点图

ChartGen极大简化了散点图创建流程:

  1. 导入数据(包含两个及以上数值列)
  2. 从可视化选项中选择“散点图”
  3. 将变量映射至X轴和Y轴
  4. 自定义设置:

- 添加趋势线(线性或LOESS)

- 按类别进行颜色编码

- 为气泡图调整点尺寸

- 添加相关性统计信息

  1. 导出为演示就绪的格式

ChartGen自动实现:

  • 推荐合适的坐标轴尺度
  • 计算并展示相关系数
  • 识别潜在异常值
  • 基于数据模式提供趋势线选项

结论

散点图外观简洁却蕴含深刻洞察力。探索连续变量间关系时,它往往是您首选的工具。

核心要点:

  • 始终先可视化: 勿仅依赖相关系数
  • 探寻非线性模式: 现实世界的关系常呈曲线或聚类形态
  • 深入调查异常值: 它们可能是错误,也可能是宝贵发现
  • 考量背景因素: 相关性从不证明因果关系
  • 为清晰度设计: 恰当的标签、尺度和标注使洞察易于理解

掌握散点图,您就掌握了数据分析的基本功——发现隐藏于数字背后的关系脉络。

散点图相关性分析数据可视化回归分析双变量分析

Ready to create better charts?

Put these insights into practice. Generate professional visualizations in seconds with ChartGen.

Try ChartGen Free