본문 바로가기
Data, AI, Tech. & Career

Data literacy - 비응답 편향

by InfosGalaxy 2025. 4. 5.
반응형

1장 4절 | 표본, 샘플, 응답률 — 누구 말을 믿을까?

뉴스 헤드라인을 보다가 이런 문장 본 적 있을 거야.

“전국 20~30대 남녀 1,000명 대상으로 조사한 결과…”
“직장인 87%가 재택근무를 긍정적으로 평가했다.”
“2030 여성의 65%가 MZ 감성 브랜드에 호감을 보였다.”
“20~30대 직장인 80%가 이직을 고려 중이다”
“2030 여성의 65%가 ‘비혼이 낫다’고 응답”
“직장인 10명 중 7명, 퇴사 후 창업 고려”

 

이런 수치를 보면 사실처럼 느껴지고, 꽤 신뢰감도 생기지?
근데 여기엔 꼭 따져봐야 할 질문들이 있어.
“그 1,000명, 도대체 누구?”

 

모든 조사는 ‘표본’이라는 선택의 결과다

세상 모든 사람을 대상으로 조사할 수는 없어.
그래서 우리는 일부만 뽑아서 조사하고,
그걸 전체의 의견처럼 해석해.
이때 뽑힌 일부가 바로 ‘표본’이고,
전체를 잘 대표할 수 있도록 뽑는 걸 ‘샘플링’이라고 해.

하지만 현실에선…

  • 시간은 부족하고,
  • 예산은 적고,
  • 사람들은 응답을 잘 안 해.

그래서 연구자나 조사기관은 가능한 한 빨리, 응답 잘 해줄 사람들 위주로 조사하게 돼.
결국 ‘응답 잘하는 사람들의 의견’만 남는 구조가 생기는 거야.

 

표본은 진실을 말해주지 않는다, ‘누구를’ 뽑았느냐가 중요하다

예를 하나 들어보자.
어느 스타트업 전문 매체에서 이런 기사를 냈어.

“스타트업 종사자 74%, 연봉보다 워라밸이 더 중요하다고 응답”

 

그럼 우리는 자동으로 생각해.
‘역시 요즘 MZ는 워라밸이지!’
하지만 실제 내용을 보면?

  • 총 응답자 113명
  • 설문은 해당 커뮤니티(스타트업 커리어 카페)에서 자체 배포
  • 응답자의 68%가 5년 미만 경력자

이게 의미하는 건?
스타트업 종사자 중에서도 일부, 그것도 특정 커뮤니티 안의 비교적 신입들이 느끼는 경향일 수 있다는 거야.
전문가들은 이런 오류를 “표본 대표성 부족(Biased Sample)”이라고 말하지.

표본이 작거나, 편향돼 있거나, 응답자들이 한쪽으로 쏠려 있으면
그 결과는 절대 전체를 대변할 수 없어.

 

응답률이 낮으면, 수치는 왜곡될 수밖에 없다

예를 들어,
1,000명에게 설문을 보냈는데 100명이 응답했어.
그중 90명이 “재택근무 좋아요”라고 했대.
그래서 나온 결론은?

“직장인 90%가 재택근무에 만족!”

 

그런데 나머지 900명은 어떤 사람들이었을까?

  • 바빠서 답 못 한 사람들
  • 설문이 귀찮거나 무관심했던 사람들
  • 오히려 재택근무에 불만 많은 사람일 수도 있어

이걸 ‘비응답 편향(non-response bias)’이라고 해.
응답하지 않은 사람들이 특정한 성향을 가지고 있다면, 그건 ‘침묵’이 아니라 ‘왜곡’이야.

 

설문조사에서 꼭 확인해야 할 3가지

  1. 누가 조사했는가?
    •    기관, 기업, 커뮤니티, SNS 설문
    •    독립성 있는 기관인가, 아니면 이해관계 있는 주체인가?
  2. 응답률은 얼마나 되나?
    •    10% 이하이면 조심해야 해.
    •    70~80%면 신뢰도 높다고 봐도 좋아.
    •    응답률 안 밝히는 조사 = 기본 신뢰성 의심
  3. 표본은 어떻게 추출됐는가?
    •    랜덤 샘플링
    •    패널 조사 (원래 설문 참여 잘하는 사람들만 모여 있음)
    •    온라인 커뮤니티 기반 (특정 성향이 강하게 반영될 가능성 큼)
  4. 질문 내용은 중립적이었는가?
    •    “재택근무가 생산성 향상에 도움이 되셨나요?”
      vs
    •    “재택근무가 답답하고 비효율적이라고 느낀 적이 있나요?”
      → 둘 다 유도적인 질문이야. 중립성은 데이터의 근본이자 출발점이야.

 

그 수치, 믿어도 되는지 묻는 습관

지금 우리가 사는 세상엔 수치가 넘쳐나.
근데 그 수치들은 대부분 ‘질문 설계’와 ‘샘플링 방식’에 따라 얼마든지 달라질 수 있어.

“직장인 87% 만족”
→ 실제로는 20~30대 IT 업계 50명만 조사했을 수도 있어.

 

“대한민국 남녀의 62%가…”
→ 수도권 중심, 특정 커뮤니티 기반일 수 있음. 지방, 고령층, 비사용자 의견은 빠져 있을 수도 있어.

 

질문 하나 바꾸는 순간, 세상이 다르게 보인다.
우리는 더 이상 ‘데이터에 속는 소비자’가 아니라
‘데이터를 의심할 줄 아는 사람’이 되어야 한다.

 

우리는 더 까다로워질 필요가 있다

데이터 리터러시를 가진 사람은
그 수치 하나를 보더라도 이렇게 생각해.

  • 이거 누가, 언제, 누구한테, 어떻게 물은 거지?
  • 그 말은 사실이 아니라 해석일 수도 있겠네
  • 그 안에 없는 목소리는 누굴까?

데이터는 ‘무언가를 보여주는 것’이기도 하지만,
동시에 ‘무언가를 지우는 방식’이기도 해.
우리는 항상 그 ‘빠진 것’까지 상상할 수 있어야 해.

 

진짜 중요한 건
“몇 명이 그렇대”가 아니라,
그 몇 명이 누구였는가
다.

[목차] Part1. 데이터는 왜 우리를 속이는가

[1장. “이 숫자, 진짜일까?”]

[2장. “그래프는 거짓말을 하지 않는다?”]

[3장. “그래프는 거짓말을 하지 않는다?”]

[4장. “당신이 클릭하는 순간, 데이터는 당신을 읽는다”]

반응형