본문 바로가기
Data, AI, Tech. & Career

Data literacy - 상관관계와 인과관계 착각의 함정

by InfosGalaxy 2025. 4. 9.
반응형

2장 3절 | 이중축 그래프, 도대체 뭘 비교하자는 거지?

보고서에서 이런 그래프 본 적 있을 거야.

  • 왼쪽 Y축: 월 매출 (단위: 억 원)
  • 오른쪽 Y축: 신규 가입자 수 (단위: 명)
  • X축: 월별 시간
  • 파란 막대: 매출
  • 빨간 선: 가입자 수

이중축

 

한눈에 보면 뭔가 있어 보인다.
“오, 가입자가 늘면서 매출도 같이 오르네?”
“가입자 수가 줄자 매출도 떨어졌네?”
이런 식으로 말이지.

그런데… 이건 정말 인과관계일까?
아니면 그냥 같은 시기에 우연히 움직였을 뿐일까?

 

이중축 그래프, 이름부터 조심해야 할 이유

이중축 그래프(Dual-Axis Chart)는 말 그대로
하나의 차트에 두 개의 서로 다른 Y축을 겹쳐서 보여주는 방식이야.
왼쪽 축은 A라는 지표,
오른쪽 축은 B라는 지표.
그리고 그 둘을 마치 관련 있는 것처럼 나란히 보여주지.

문제는?

Y축마다 단위도 다르고, 범위도 다르고, 의미도 다르다는 점.

 

[예]

  • 왼쪽 Y축: 매출 (0~2억)
  • 오른쪽 Y축: 가입자 수 (0~10만 명)

근데 두 선이 둘 다 ‘상승’했으면?
보고 있는 사람은 자동으로 생각한다:

“역시 가입자가 늘면 매출도 따라서 늘어나는군!”

 

하지만 현실은 그리 단순하지 않다.

 

같은 방향으로 움직인다고, 관련 있는 건 아니다

이걸 ‘상관관계와 인과관계 착각의 함정’이라고 해.
단지 같은 시기에 비슷한 패턴을 보인다고 해서
둘 사이에 직접적인 연결 고리가 있다고 단정할 수는 없어.

실제로 이런 케이스가 있었다:

  • 소셜 커머스 A사의 발표자료:
    “신규 유입이 늘수록 객단가도 상승!”
    → 이중축 그래프:
    왼쪽 Y축 – 객단가(단위: 만 원), 오른쪽 Y축 – 신규 유입자 수(단위: 명)

하지만 나중에 확인된 내부 데이터에서는

  • 신규 유입은 대부분 ‘이벤트 참여자’ → 구매율 낮음, 객단가 낮음
  • 객단가 상승은 기존 VIP 고객의 특정 시즌 반복 구매 때문

즉, 시각적으로는 맞아 보이지만, 실제로는 전혀 관련 없는 두 지표를 겹쳐서 보여준 것.

 

이중축 그래프는 잘 쓰면 유용하지만, 잘못 쓰면 착시의 덩어리다

이중축 그래프가 특히 위험한 이유는 다음과 같아:

  1. 서로 다른 단위를 같은 눈높이에 놓는다
    •    매출과 사용자 수는 단위도 크기도 다름
    •    그런데 그래프에선 같은 선으로 보여짐 → 시각적 왜곡
  2. 스케일 조정으로 관계가 과장되거나 반대로 보일 수 있다
    •    한쪽 Y축을 극단적으로 확대하면 선이 더 가파르게 보이고,
      → 마치 상관관계가 더 커진 것처럼 느껴짐
  3. 해석하는 사람이 둘의 관계를 '의심 없이 받아들이게' 만든다
    •    의도하지 않아도, 보는 사람은 자동으로 ‘관련성’을 떠올림
    •    이게 바로 보고서, 발표자료, 마케팅 리포트에서 이중축이 자주 쓰이는 이유

 

실제로는 아무 의미 없는 두 데이터를 비교하는 경우도 있다

가끔 보면 ‘보여줄 지표가 부족할 때’ 아무거나 끌어다 붙이는 경우도 있다.

 

[예]

  • 왼쪽 Y축: 앱 리뷰 수
  • 오른쪽 Y축: 고객 센터 상담 건수
  • X축: 월별 변화

그런데 둘 사이에 아무 관계도 없는데
→ 시각적으로는 “앱 리뷰가 많으면 상담도 많다”는 인상을 줘버린다.

두 데이터 비교


숫자가 뭔가 말해주지 않아도, 시각화는 말하고 있는 것처럼 보인다.

 

우리가 이중축 그래프를 볼 때 꼭 해야 할 것들

1. Y축 단위를 먼저 본다

  • 두 데이터의 단위가 비슷한가?
  • 단위 차이가 클수록 왜곡 가능성 상승()

2. 선이 움직이는 패턴을 해석하지 말고, 숫자 자체를 본다

  • "같이 올라갔네" → “얼마만큼 올라갔지?”로 전환
  • 퍼센트 변화율을 함께 보면 더 객관적으로 판단 가능

3. ‘인과관계’가 아니라 ‘동시발생’임을 잊지 않는다

  • 둘 사이가 ‘같은 시기에 움직였다’는 것 외에
    → 진짜로 연결되어 있다는 증거는 있는가?

4. ‘왜 이 두 지표를 함께 보여주는가?’를 생각해 본다

  • 진짜 의미 있는 비교인가?
  • 그냥 "자료가 없어 끼워 넣은" 건 아닌가?

이중축 그래프는 마치 영화 트레일러 같다.
관계를 보여주는 게 아니라, ‘보이게’ 만드는 도구일 수 있다.

 

진짜 중요한 건,
그 관계가 실제로 어떤 연결을 갖고 있는지
데이터 수치 이면의 ‘맥락’을 묻는 습관이다.

 

 

[목차] Part1. 데이터는 왜 우리를 속이는가

[1장. “이 숫자, 진짜일까?”]

[2장. “그래프는 거짓말을 하지 않는다?”]

[3장. “그래프는 거짓말을 하지 않는다?”]

[4장. “당신이 클릭하는 순간, 데이터는 당신을 읽는다”]

반응형