본문 바로가기
Data, AI, Tech. & Career

Data literacy - 데이터를 만든 사람의 입장

by InfosGalaxy 2025. 4. 11.
반응형

데이터를 만드는 입장

3장 2절 | 누가 데이터를 만들었는가: 기관, 기업, 언론의 의도

아침에 스마트폰 알림으로 뉴스 하나가 떴다.

“2030 세대의 72%, 연애보다 혼자가 편하다 응답”
기사 안에는 그래프도 있었고, 퍼센트도 있었다.
“오, 요즘 사람들 진짜 연애 안 하나 보다”
그렇게 우리는 또 하나의 통계를 믿는다.
그런데 그 데이터, 누가 만든 걸까?

 

숫자에는 입장이 있다.

데이터는 ‘사실’이 아니라 ‘설계된 이야기’다.

대부분 사람들은 “데이터는 객관적이다”라고 생각한다.
하지만 데이터는 생성, 수집, 선택, 표현 — 이 모든 과정에서 사람의 선택이 들어간다.
그리고 그 사람들은 각자의 입장, 목적, 의도를 가지고 있다.

데이터는 그 자체로 정치적이다.
‘정치’라는 말이 거창하게 들릴 수도 있지만, 여기서 말하는 정치란
누가 말하고 싶은 걸 말하고, 누가 침묵시키는가”에 관한 구조다.

 

언론이 만드는 데이터

앞서 말한 연애 관련 기사. 실제로는 이렇게 구성돼 있다:

  • 조사기관: 결혼정보회사
  • 대상: 자사 회원 및 커뮤니티 회원 1,000명
  • 문항: “요즘은 혼자가 더 편하다고 느낀다”
  • 응답 방식: 5점 리커트 척도 중 ‘그렇다’ 이상만 집계

이걸 다시 정리하면:

  • 특정 서비스에 가입할 만큼 연애/결혼에 관심 많은 사람들
  • 이미 ‘고민 중’이거나 ‘고민을 끝낸’ 사람들이고
  • 질문도 ‘편하다’라는 모호한 감정 어휘로 설정돼 있으며
  • 반응은 다섯 단계 중 상위 두 단계만 집계

결과적으로 만들어진 그래프는,
“요즘 2030 다 연애 안 한다”는 느낌을 심어주는 구성이다.

이건 명백히 의도된 데이터 설계다.
사실을 왜곡하지 않았지만,
‘특정한 메시지’를 위해 데이터를 추리고 해석하고 보여준 것이다.

기업이 만드는 데이터

한 식품 브랜드에서 공개한 자료.

“신제품 섭취 후 만족도 96%!”

 

자세히 보면:

  • 자체 고객 조사 (무료 체험단 150명)
  • 질문 문항: “제품에 만족하셨나요?”
  • 답변 5점 중 4점 이상을 ‘만족’으로 집계
  • 부정적인 응답은 별도 표기 없이 제외

이건 마치 이렇다:

  • 친구가 나한테 케이크 줬는데 맛 어땠냐고 물어서
  • “응 뭐 괜찮았어” 했더니
    → “친구 100% 만족한 디저트!”라고 SNS에 올리는 것과 같다.

기업은 항상 긍정적인 인상을 남기고 싶어 한다.
그렇기 때문에 데이터를 ‘설계’하고 ‘조합’해서 그렇게 만든다.

 

정부/공공기관이 만드는 데이터

정부 통계는 ‘가장 믿을 수 있는 데이터’처럼 보이지만,
사실 그 안에서도 무엇을 강조하느냐에 따라 전혀 다른 메시지가 나올 수 있다.

 

[예] 실업률 발표.

  • “청년층 실업률 7.6%, 전월 대비 0.3% 감소”
    → 좋아 보인다. 개선되고 있는 것처럼 보인다.

하지만 같은 데이터의 다른 해석:

  • “구직을 포기한 청년 비율 역대 최고치”
  • “아르바이트, 단기 계약직 포함한 확장실업률은 25%대”

숫자는 같아도, 표현은 전혀 다를 수 있다.
그리고 그 표현 뒤에는 ‘말하고 싶은 국가의 메시지’가 있다.

 

데이터를 만들 때, 사람이 개입되는 모든 순간

  1. 무엇을 측정할지 정하는 순간
    → 예: '성공 지표’를 ‘매출’로만 볼지, ‘만족도’까지 포함할지
  2. 어떻게 수집할지를 정하는 순간
    → 오프라인 설문? 온라인 커뮤니티 기반? SNS 팔로워 설문?
  3. 어떤 항목을 강조하고 어떤 건 생략할지 정하는 순간
    → '좋은 결과'는 강조, '불편한 결과'는 부록으로
  4. 그래프, 색상, 단어 선택이 개입되는 순간
    → 파란색은 안정, 빨간색은 위기
    → ‘감소’, ‘하락’, ‘붕괴’ 같은 단어는 훨씬 감정 자극이 크다

그렇다면 우리는 어떻게 이 데이터를 읽어야 할까?

1. ‘이 데이터를 만든 주체는 누구인가?’
→ 정부? 기업? 언론? NGO? 커뮤니티?
→ 이 주체는 어떤 목적을 가지고 있는가?

2. ‘왜 지금 이 데이터를 공개했을까?’
→ 시점은 어떤 맥락인가? (선거 앞둔 시점, 신제품 출시 직후 등)
→ 타이밍도 메시지다

3. ‘누가 이 데이터에 포함되지 않았는가?’
→ 표본에서 누가 빠졌는가?
→ 침묵한 집단, 응답하지 않은 사람들은 어떤 사람들인가?

4. ‘이 데이터를 통해 말하고 싶은 건 무엇인가?’
→ 결국 이 숫자는 어떤 행동을 유도하고 싶은 걸까?
→ 클릭? 구매? 찬성? 관심?

 

데이터는 믿는 게 아니다. 해석하는 것이다.

데이터를 만든 사람의 입장을 읽어야
우리는 더 이상 ‘객관성의 포장지’에 속지 않는다.

기업의 보고서도, 뉴스 기사도, 피피티에 뜬 지표도,
그냥 숫자가 아니라누군가의 설계물이다.

 

진짜 데이터 리터러시는,
숫자만 읽는 게 아니라
숫자를 만든 사람의 시선까지 함께 읽는 것이다.

[목차] Part1. 데이터는 왜 우리를 속이는가

[1장. “이 숫자, 진짜일까?”]

[2장. “그래프는 거짓말을 하지 않는다?”]

[3장. “그래프는 거짓말을 하지 않는다?”]

[4장. “당신이 클릭하는 순간, 데이터는 당신을 읽는다”]

반응형