본문 바로가기
Data, AI, Tech. & Career

Data literacy - 중립을 가장한 편향

by InfosGalaxy 2025. 4. 12.
반응형

중립을 가장한 편향

3장 3절 | 데이터는 중립적이지 않다: 왜 수치는 편향될 수밖에 없는가

“우리는 데이터로 말합니다.”
“숫자는 거짓말하지 않습니다.”
“팩트에 기반한 결정을 내립니다.”

 

회의실에서, 마케팅 브리핑에서, 보도자료에서 이런 말은 거의 주문처럼 반복된다.

하지만 진짜일까?

우리는 그동안 ‘데이터’라는 단어에 너무 많은 신뢰를 줬었다.
숫자는 감정이 없고, 입장이 없고, 누구의 편도 아닌 순수한 정보라고 믿었던 거다.

하지만 현실은 정반대다.
데이터는 그 자체로도 이미 편향되어 있을 수밖에 없고,
그 편향은 ‘보기 좋게’ 잘 포장돼서 우리 앞에 놓인다.

 

데이터는 ‘있는 그대로의 세상’을 보여주는가?

아니다. 보여주기로 선택된 조각만 보여준다.

데이터는 공기 중에 떠다니는 게 아니다.
사람이 설계하고, 선택하고, 수집하고, 편집한 결과물이다.
즉, 데이터는 기본적으로 ‘누가, 무엇을, 어떻게 측정했는가’에 따라 편향될 수밖에 없다.

여기서 중요한 건,
이 편향이 대부분 ‘고의적’이지 않다는 점이다.
악의가 아니라 무의식적인 선택’이 누적되어 생긴 현상인 경우가 더 많다.

 

문제는, 그걸 인식하지 못하고
데이터 = 진실이라고 믿는 데 있다.

 

편향이 생기는 결정적 순간

① 질문의 설계

데이터는 어떤 질문을 던지느냐에 따라 완전히 다른 형태가 된다.

 

[예]
다이어트 보조제를 출시한 기업이 만족도 조사를 한다고 치자.

  • 질문 1: “제품을 사용한 후 변화가 있었나요?”
  • 질문 2: “이 제품을 주변에 추천하고 싶으신가요?”
  • 질문 3: “이 제품에 불만족한 점이 있나요?”

세 질문 중 어떤 걸 고르느냐에 따라 결과는 완전히 달라진다.

 

질문 1긍정적인 변화만 부각할 수 있고,
질문 2NPS(Net Promoter Score) 식으로 브랜드 지지도를 높게 표현할 수 있으며,
질문 3은 아예 보고서에서 제외될 수도 있다.

결과는?

“사용자의 87%가 변화가 있었다고 응답”
“92%가 재구매 의향을 보였다”
라는 그래프만 남는다.

 

질문 하나가 데이터를 바꾼다.
그리고 질문은 늘 누군가가 선택한 것이다.

 

② 응답자의 구성

우리가 흔히 착각하는 게 있다.
“1000명이 응답했으니 꽤 신뢰도 있는 조사겠네.”

하지만 ‘누가’ 응답했는지가 핵심이다.

 

[예]

“2030 직장인 62%가 이직을 고려 중”

 

자세히 보면,

  • 응답자 대부분이 IT 업계
  • 서울/수도권 거주
  • 커리어 플랫폼 가입자
  • 설문 참여는 자발적 응답 기반

즉, 이건 '전국의 2030 직장인'의 데이터가 아니라
커리어에 민감한 일부 응답자의 이야기일 가능성이 높다.

그럼에도 불구하고 언론 헤드라인은 단정적으로 말한다:

“MZ세대, 조직에 충성하지 않는다”

 

이건 편향을 넘어서 오용이다.

 

③ 수집 채널의 제한

데이터는 수집할 수 있는 채널만큼만 보인다.
이걸 ‘관측 편향(Observation Bias)’이라고 한다.

 

[예]

  • 고객 피드백 수집 → 앱 푸시 알림 기반
  • 설문조사 → 이메일 응답자
  • 후기 분석 → 자발적으로 남긴 사람들만

소극적인 사용자, 불만이 있어도 침묵한 고객, 설문을 읽지 않은 사람들은 데이터에 포함되지 않는다.

하지만 대부분의 기업 리포트는 이렇게 말한다:

“응답자 82%가 서비스에 만족”

 

그 82%는 ‘말을 한 사람들’이고,
말하지 않은 나머지 수많은 사람들의 생각은 어디에도 없다.

 

④ 분석 기준의 설정

데이터는 어떻게 분석하느냐에 따라 메시지가 달라진다.

 

[예] 어떤 쇼핑몰이 방문자 수와 구매 전환율을 분석한다.

  • 기준 1: 전체 방문자 기준 → 전환율 0.8%
  • 기준 2: 장바구니에 담은 사람 기준 → 전환율 8.1%

둘 다 틀린 수치는 아니다.
하지만 기업은 후자를 강조하고 싶어 한다.
→ 왜냐하면 그래야 ‘성과’처럼 보이니까.

 

또한 분석 기간에 따라도 결과는 크게 달라진다.

  • 이벤트 직후 일주일 → 전환율 급상승
  • 장기 평균 → 정체 혹은 감소

데이터는 동일해도,
해석은 무한히 달라질 수 있다.
그래서 편향은 분석하는 순간에도 시작된다.

 

그렇다면, 우리는 어떻게 이 편향을 알아챌 수 있을까?

이건 결국 질문을 던지는 습관이다.

“이 데이터는 어떤 질문에서 시작됐지?”
“응답하지 않은 사람들은 누구일까?”
“이걸 수집한 채널은 누구를 걸러냈을까?”
“왜 이 지표만 강조하고, 다른 건 빠졌을까?”
“기간, 기준, 단위는 어떤 선택이 있었을까?”

 

편향은 언제나 숨겨져 있는 게 아니라,
단지 우리가 질문하지 않아서 지나치는 경우가 대부분이다.

 

데이터는 믿는 게 아니다. 해석하는 것이다.

데이터를 무조건적으로 믿으면, 
우리는 ‘객관적인 포장’에 속는 소비자가 된다.
하지만 데이터를 ‘편향 가능성이 있는 텍스트’로 보면,
우리는 그걸 읽고, 뜯고, 해석하는 주체가 된다.

“진짜 중요한 건, 숫자 속 진실이 아니라
그 숫자가 어떻게 만들어졌는지를 보는 시선이다.”

 

이제 우리는 숫자만 보지 않는다.
숫자가 나온 경로를 보고,
숫자에 빠진 맥락을 찾고,
숫자가 말하지 않는 침묵에 귀 기울일 수 있다.

그게 바로
데이터 리터러시의 체력이 길러지는 순간이다.

[목차] Part1. 데이터는 왜 우리를 속이는가

[1장. “이 숫자, 진짜일까?”]

[2장. “그래프는 거짓말을 하지 않는다?”]

[3장. “그래프는 거짓말을 하지 않는다?”]

[4장. “당신이 클릭하는 순간, 데이터는 당신을 읽는다”]

 

 

반응형