블로그로 돌아가기
튜토리얼14분 분량

산점도와 상관관계 분석: 데이터 분석가를 위한 완벽 가이드

상관관계 분석을 위한 산점도를 마스터하세요. 두 변수 간 관계 파악, 추세선 추가, 패턴 해석, 이변량 데이터 시각화에서 흔히 저지르는 실수 피하기를 배워보세요.

아이샤 파텔 박사, 데이터 과학 연구원

아이샤 파텔 박사

데이터 과학 연구원

Share:
ChartGen 파란색 계열 색상으로 추세선과 양의 상관관계를 보여주는 전문적인 산점도 시각화, 데이터 분석가를 위한 상관관계 분석 기술 예시
상관관계 분석과 회귀 모델링을 위한 산점도 마스터하기

산점도는 상관관계 분석의 핵심 도구로, 두 개의 연속 변수 간 관계를 시각화하는 주요 수단입니다. 하지만 저는 수많은 분석 사례에서 산점도가 잘못 해석되거나, 설계가 미흡하거나, 사용되어야 할 때 사용되지 않는 경우를 목격했습니다. 이 포괄적인 가이드는 데이터 분석에서 산점도를 활용하는 방식을 근본적으로 바꿔줄 것입니다.

산점도란 무엇인가?

산점도(또는 XY 차트, 산점 그래프, 산포도)는 두 변수의 값을 2차원 좌표계 상의 점으로 나타냅니다. 각 점은 하나의 관측치를 나타내며:

  • X축(수평): 독립 변수 또는 예측 변수
  • Y축(수직): 종속 변수 또는 결과 변수

산점도의 힘은 표나 요약 통계에서는 볼 수 없는 패턴을 드러내는 데 있습니다.

상관관계의 구조

산점도 기법을 깊이 들여가기 전에, 우리가 찾고 있는 것이 무엇인지 이해해 봅시다.

상관관계 방향

양의 상관관계: X가 증가할수록 Y도 증가하는 경향

  • 점들이 좌하단에서 우상단으로 흐름
  • 예시: 키와 체중, 교육 수준과 소득, 광고 비용과 매출

음의 상관관계: X가 증가할수록 Y는 감소하는 경향

  • 점들이 좌상단에서 우하단으로 흐름
  • 예시: 가격과 수요, 차령과 가치, 거리와 신호 강도

상관관계 없음: 일관된 관계 없음

  • 패턴 없이 무작위로 점들이 흩어짐
  • 예시: 신발 사이즈와 IQ, 출생 월과 키

상관관계 강도

강한 상관관계(|r| > 0.7): 점들이 가상의 선 주변에 밀집

중간 상관관계(0.4 ~ 0.7 |r|): 명확한 추세지만 넓게 퍼짐

약한 상관관계(|r| < 0.4): 흐릿한 패턴, 상당한 분산

상관관계 없음(r ≈ 0): 무작위 분산, 식별 가능한 패턴 없음

상관계수(r)

피어슨 상관계수는 -1에서 +1 사이의 값을 가집니다:

  • r = 1: 완벽한 양의 상관관계
  • r = 0: 선형 상관관계 없음
  • r = -1: 완벽한 음의 상관관계

중요한 주의사항: 상관관계는 선형 관계만 측정합니다. 산점도는 상관계수가 완전히 놓칠 수 있는 비선형 패턴을 드러낼 수 있습니다.

산점도를 사용해야 할 때

이상적인 사용 사례

  1. 두 연속 변수 간 관계 탐색
  2. 일반 패턴에서 벗어난 이상치 식별
  3. 데이터 내 군집 또는 하위 그룹 감지
  4. 회귀분석 전 가정 검증
  5. 이해관계자에게 상관관계 전달

부적합한 경우

  • 범주형 변수: 대신 그룹화된 막대 그래프 사용
  • 시계열 데이터: 시간적 패턴에는 선 그래프 사용
  • 대규모 데이터셋(>10,000개 점): 밀도 그래프 또는 헥스빈 그래프 고려
  • 두 개 이상의 변수: 버블 차트 또는 소형 다중 그래프 사용

산점도 패턴 읽기

패턴 1: 선형 관계

점들이 직선 경로를 따릅니다. 이는 고전적인 상관관계 패턴입니다.

강한 양의 선형 관계:

  • 점들이 좌하단에서 우상단으로 좁은 띠를 형성
  • r 값이 +1에 가까워짐
  • 예시: 학습 시간과 시험 점수

해석 팁: 선형 패턴은 X가 1단위 증가할 때마다 Y가 일정량 변화한다는 것을 시사합니다.

패턴 2: 비선형 관계

점들이 곡선 경로를 따릅니다. 일반적인 형태는 다음과 같습니다:

이차 관계(U자형 또는 역U자형):

  • 관계가 방향을 바꿈
  • 예시: 스트레스와 성과(예르케스-도드슨 법칙)

로그 관계:

  • 빠른 초기 변화 후 완만해짐
  • 예시: 연습 시간과 기술 향상

지수 관계:

  • 느린 초기 변화 후 가속화
  • 예시: 시간에 따른 복리

중요한 통찰: 항상 데이터를 시각화하세요! 0에 가까운 상관계수라도 강한 비선형 관계를 숨기고 있을 수 있습니다.

패턴 3: 이분산성

Y의 분산이 X 값에 따라 변합니다. 산포가 "부채꼴" 또는 "깔때기" 모양으로 퍼집니다.

부채꼴 패턴:

  • 낮은 X 값에서는 점들이 밀집
  • 높은 X 값에서는 점들이 넓게 퍼짐
  • 예시: 소득과 지출(부유층은 지출 변동성이 더 큼)

중요성: 이분산성은 회귀분석 가정을 위반하며 특별한 처리가 필요합니다.

패턴 4: 군집

산점도 내에 뚜렷한 그룹이 나타납니다.

다중 군집:

  • 두 개 이상의 분리된 점 구름
  • 종종 데이터 내 하위 그룹을 나타냄
  • 예시: 남성/여성 군집이 있는 키와 체중

필요한 조치: 군집을 별도로 분석하거나 그룹화 변수를 추가하는 것을 고려하세요.

패턴 5: 이상치

주요 패턴에서 멀리 떨어진 개별 점들.

이상치 유형:

  • 높은 지렛대 효과: X의 극단값
  • 높은 영향력: 추세선을 크게 변경
  • 무작위 이상치: 데이터 입력 오류 또는 진정한 이상값

항상 이상치를 조사하세요: 오류일 수도 있지만, 가장 흥미로운 데이터 포인트일 수도 있습니다.

효과적인 산점도 생성

단계 1: 데이터 준비

필수 데이터 점검:

  • 결측치 제거 또는 조사
  • 데이터 입력 오류 확인
  • 단위와 척도 검증
  • 필요한 변환(로그, 제곱근) 고려

단계 2: 적절한 축 선택

X축(독립 변수):

  • 다른 변수에 영향을 미칠 것으로 의심되는 변수
  • 잠재적으로 통제할 수 있는 변수
  • 시간 순 데이터에서는 먼저 측정된 변수

Y축(종속 변수):

  • 조사하고 있는 결과 변수
  • X의 변화에 반응하는 변수

축척 고려사항:

  • 데이터에 의미 있는 경우에만 0 포함
  • 일관된 축척 증가분 사용
  • 지수 관계에는 로그 척도 고려

단계 3: 점 그리기

점 크기:

  • 기본 산점도에는 일관된 크기
  • 버블 차트에는 가변 크기(세 번째 변수 인코딩)
  • 대규모 데이터셋에는 작은 점

점 스타일:

  • 대부분의 경우 실선 원
  • 점이 겹치면 속 빈 원
  • 범주별 다른 모양(절제해서 사용)

투명도:

  • 겹치는 점에는 투명도(알파) 추가
  • 50-70% 불투명도가 중간 정도 겹침에 적합

단계 4: 추세선 추가(적절할 때)

선형 회귀선:

  • 최적 적합 직선 표시
  • 적합도 표시를 위해 R² 값 포함
  • 불확실성을 위한 신뢰 구간 밴드 추가

LOESS/LOWESS 곡선:

  • 비모수적 평활화
  • 비선형 패턴 드러냄
  • 모델 선택 전 탐색에 유용

추세선을 추가하지 말아야 할 때:

  • 데이터에 명확한 관계가 보이지 않을 때
  • 다중 군집이 별도의 선을 필요로 할 때
  • 관계를 확인하기보다 탐색 중일 때

단계 5: 가독성 향상

축 레이블:

  • 명확하고 설명적인 변수명
  • 측정 단위 포함
  • 문장 형식 사용

제목:

  • 표시되는 관계 명시
  • 맥락(기간, 모집단) 포함

주석:

  • 주목할 만한 이상치 레이블
  • 기준선(평균, 임계값) 추가
  • 관련성 있을 경우 상관계수 포함

고급 산점도 기법

기법 1: 버블 차트

점 크기를 변화시켜 세 번째 변수를 추가합니다.

최적 용도:

  • 관계와 함께 규모 표시
  • 개체(국가, 기업, 제품) 비교
  • 크기가 최근성을 나타내는 시계열

디자인 팁: 반지름이 아닌 면적을 값에 비례하게 사용하세요. 우리의 인식은 지름이 아닌 면적을 판단합니다.

기법 2: 색상 구분 산점도

색상을 통해 범주 정보를 추가합니다.

최적 용도:

  • 그룹 비교
  • 군집 식별
  • 패턴 내 패턴 발견

제한: 명확성을 위해 최대 5~7가지 색상. 색맹 친화적인 팔레트 사용.

기법 3: 소형 다중 그래프

비교를 위한 산점도 그리드를 생성합니다.

최적 용도:

  • 범주 간 관계 비교
  • 기간별 변화 표시
  • 상호작용 효과 발견

디자인 팁: 유효한 비교를 위해 모든 패널에서 축을 일관되게 유지하세요.

기법 4: 주변 분포

여백에 히스토그램 또는 밀도 그래프를 추가합니다.

최적 용도:

  • 개별 변수 분포 이해
  • 단변량 맥락에서 이상치 감지
  • 이봉 분포 감지

기법 5: 헥스빈 및 밀도 그래프

점들이 심하게 겹치는 대규모 데이터셋용.

헥스빈 그래프: 점들을 육각형 빈으로 집계, 개수에 따른 색상

밀도 그래프: 농도를 연속적인 그라데이션으로 표시

사용 시기: 1,000~5,000개 이상 점(그래프 크기에 따라)

산점도 해석: 프레임워크

4단계 해석 프로세스

단계 1: 전체 패턴

  • 관계가 있는가?
  • 어떤 방향(양/음)인가?
  • 어떤 형태(선형/곡선)인가?
  • 얼마나 강한가(조밀/분산)인가?

단계 2: 패턴에서의 벗어남

  • 이상치가 있는가?
  • 군집이 있는가?
  • X에 따라 분산이 변하는가?

단계 3: 맥락 확인

  • 패턴이 이론적으로 타당한가?
  • 교란 변수가 있는가?
  • 관계가 인과적일 가능성이 높은가?

단계 4: 정량화

  • 상관계수 계산
  • 적절한 회귀 모델 적합
  • 신뢰 구간 계산

흔한 산점도 실수

실수 1: 상관관계 = 인과관계로 가정

강한 상관관계를 보여주는 산점도가 인과관계를 증명하지는 않습니다. 숨겨진 변수가 X와 Y 모두를 설명할 수 있습니다.

고전적인 예시: 아이스크림 판매와 익사 사고는 강하게 상관관계가 있습니다. 숨겨진 변수는? 여름 더위입니다.

실수 2: 비선형 패턴 무시

r = 0인 상관계수가 완벽한 이차 관계를 숨기고 있을 수 있습니다. 항상 숫자뿐만 아니라 그래프를 보세요!

실수 3: 데이터 범위를 넘어선 외삽

데이터가 X 값 10~50을 다룬다면, X = 100에 대한 예측을 하지 마세요. 관찰된 범위를 벗어나면 관계가 변할 수 있습니다.

실수 4: 과포화 그래프

수천 개의 점으로 산점도는 읽을 수 없는 검은 얼룩이 됩니다. 투명도, 밀도 그래프 또는 샘플링을 사용하세요.

실수 5: 이상치 선택적 제거

상관관계를 "개선"하기 위해 이상치를 제거하는 것은 데이터 조작입니다. 이상치를 조사하되, 타당한 이유 없이 삭제하지 마세요.

실제 사례에서의 산점도: 사례 연구

사례 연구 1: 영업 성과 분석

질문: 영업 교육은 수익을 향상시키는가?

변수:

  • X: 이수한 교육 시간
  • Y: 분기별 창출 수익

결과:

  • 40시간까지 양의 상관관계(r = 0.65)
  • 40시간 이후 정체 효과(수익 체감)
  • 세 개의 이상치 식별: 교육과 무관한 최고 성과자

조치: 40시간 교육 상한 권고, 이상치의 성공 요인 조사

사례 연구 2: 고객 만족도 vs 수익

질문: 더 만족한 고객이 더 많은 지출을 하는가?

변수:

  • X: 순추천지수(NPS)
  • Y: 연간 고객 지출

결과:

  • 전체적으로 약한 상관관계(r = 0.28)
  • 고객 세그먼트별 색상 구분 시 명확한 군집
  • 기업 고객: 강한 상관관계(r = 0.71)
  • 중소기업 고객: 상관관계 없음(r = 0.08)

조치: 수익에 영향을 미치는 기업 세그먼트에 만족도 노력 집중

사례 연구 3: 웹사이트 성능 최적화

질문: 페이지 로딩 시간은 이탈률에 어떻게 영향을 미치는가?

변수:

  • X: 페이지 로딩 시간(초)
  • Y: 이탈률(퍼센트)

결과:

  • 강한 양의 상관관계(r = 0.78)
  • 관계는 대수적으로 보임(1~3초에서 급격한 증가, 이후 안정화)
  • 모바일 대 데스크톱은 다른 곡선을 보임(색상 구분)

조치: 로딩 시간 3초 미만을 우선시, 모바일 최적화가 중요

ChartGen으로 산점도 생성하기

ChartGen은 산점도 생성을 간소화합니다:

  1. 두 개 이상의 숫자 열로 데이터 가져오기
  2. 시각화 옵션에서 "산점도" 선택
  3. X축과 Y축에 변수 매핑
  4. 사용자 지정:

- 추세선 추가(선형 또는 LOESS)

- 범주별 색상 구분

- 버블 차트용 점 크기 조정

- 상관관계 통계 추가

  1. 프레젠테이션 준비 형식으로 내보내기

ChartGen은 자동으로 다음을 수행합니다:

  • 적절한 축 척도 제안
  • 상관계수 계산 및 표시
  • 잠재적 이상치 식별
  • 데이터 패턴 기반 추세선 옵션 제공

결론

산점도는 겉보기에는 단순해 보이지만 통찰력 면에서는 매우 강력합니다. 연속 변수 간의 관계를 탐색할 때 가장 먼저 사용해야 할 도구입니다.

핵심 요점:

  • 항상 먼저 시각화하세요: 상관계수만 의존하지 마세요
  • 선형성을 넘어선 패턴을 찾으세요: 실제 세계의 관계는 종종 곡선적이거나 군집을 이룹니다
  • 이상치를 조사하세요: 오류일 수도 있지만 가장 가치 있는 통찰일 수도 있습니다
  • 맥락을 고려하세요: 상관관계는 인과관계를 증명하지 않습니다
  • 명확성을 위해 설계하세요: 적절한 레이블, 척도 및 주석이 통찰력에 접근하게 합니다

산점도를 마스터하면 데이터 분석의 기본 기술인 숫자에 숨겨진 관계를 보는 능력을 마스터하게 될 것입니다.

산점도상관관계 분석데이터 시각화회귀분석이변량 분석

Ready to create better charts?

Put these insights into practice. Generate professional visualizations in seconds with ChartGen.

Try ChartGen Free