3장 2절 | 누가 데이터를 만들었는가: 기관, 기업, 언론의 의도
아침에 스마트폰 알림으로 뉴스 하나가 떴다.
“2030 세대의 72%, 연애보다 혼자가 편하다 응답”
기사 안에는 그래프도 있었고, 퍼센트도 있었다.
“오, 요즘 사람들 진짜 연애 안 하나 보다”
그렇게 우리는 또 하나의 통계를 믿는다.
그런데 그 데이터, 누가 만든 걸까?
숫자에는 입장이 있다.
데이터는 ‘사실’이 아니라 ‘설계된 이야기’다.
대부분 사람들은 “데이터는 객관적이다”라고 생각한다.
하지만 데이터는 생성, 수집, 선택, 표현 — 이 모든 과정에서 사람의 선택이 들어간다.
그리고 그 사람들은 각자의 입장, 목적, 의도를 가지고 있다.
데이터는 그 자체로 정치적이다.
‘정치’라는 말이 거창하게 들릴 수도 있지만, 여기서 말하는 정치란
“누가 말하고 싶은 걸 말하고, 누가 침묵시키는가”에 관한 구조다.
① 언론이 만드는 데이터
앞서 말한 연애 관련 기사. 실제로는 이렇게 구성돼 있다:
- 조사기관: 결혼정보회사
- 대상: 자사 회원 및 커뮤니티 회원 1,000명
- 문항: “요즘은 혼자가 더 편하다고 느낀다”
- 응답 방식: 5점 리커트 척도 중 ‘그렇다’ 이상만 집계
이걸 다시 정리하면:
- 특정 서비스에 가입할 만큼 연애/결혼에 관심 많은 사람들
- 이미 ‘고민 중’이거나 ‘고민을 끝낸’ 사람들이고
- 질문도 ‘편하다’라는 모호한 감정 어휘로 설정돼 있으며
- 반응은 다섯 단계 중 상위 두 단계만 집계
결과적으로 만들어진 그래프는,
“요즘 2030 다 연애 안 한다”는 느낌을 심어주는 구성이다.
이건 명백히 의도된 데이터 설계다.
사실을 왜곡하지 않았지만,
‘특정한 메시지’를 위해 데이터를 추리고 해석하고 보여준 것이다.
② 기업이 만드는 데이터
한 식품 브랜드에서 공개한 자료.
“신제품 섭취 후 만족도 96%!”
자세히 보면:
- 자체 고객 조사 (무료 체험단 150명)
- 질문 문항: “제품에 만족하셨나요?”
- 답변 5점 중 4점 이상을 ‘만족’으로 집계
- 부정적인 응답은 별도 표기 없이 제외
이건 마치 이렇다:
- 친구가 나한테 케이크 줬는데 맛 어땠냐고 물어서
- “응 뭐 괜찮았어” 했더니
→ “친구 100% 만족한 디저트!”라고 SNS에 올리는 것과 같다.
기업은 항상 긍정적인 인상을 남기고 싶어 한다.
그렇기 때문에 데이터를 ‘설계’하고 ‘조합’해서 그렇게 만든다.
③ 정부/공공기관이 만드는 데이터
정부 통계는 ‘가장 믿을 수 있는 데이터’처럼 보이지만,
사실 그 안에서도 무엇을 강조하느냐에 따라 전혀 다른 메시지가 나올 수 있다.
[예] 실업률 발표.
- “청년층 실업률 7.6%, 전월 대비 0.3% 감소”
→ 좋아 보인다. 개선되고 있는 것처럼 보인다.
하지만 같은 데이터의 다른 해석:
- “구직을 포기한 청년 비율 역대 최고치”
- “아르바이트, 단기 계약직 포함한 확장실업률은 25%대”
숫자는 같아도, 표현은 전혀 다를 수 있다.
그리고 그 표현 뒤에는 ‘말하고 싶은 국가의 메시지’가 있다.
데이터를 만들 때, 사람이 개입되는 모든 순간
- 무엇을 측정할지 정하는 순간
→ 예: '성공 지표’를 ‘매출’로만 볼지, ‘만족도’까지 포함할지 - 어떻게 수집할지를 정하는 순간
→ 오프라인 설문? 온라인 커뮤니티 기반? SNS 팔로워 설문? - 어떤 항목을 강조하고 어떤 건 생략할지 정하는 순간
→ '좋은 결과'는 강조, '불편한 결과'는 부록으로 - 그래프, 색상, 단어 선택이 개입되는 순간
→ 파란색은 안정, 빨간색은 위기
→ ‘감소’, ‘하락’, ‘붕괴’ 같은 단어는 훨씬 감정 자극이 크다
그렇다면 우리는 어떻게 이 데이터를 읽어야 할까?
1. ‘이 데이터를 만든 주체는 누구인가?’
→ 정부? 기업? 언론? NGO? 커뮤니티?
→ 이 주체는 어떤 목적을 가지고 있는가?
2. ‘왜 지금 이 데이터를 공개했을까?’
→ 시점은 어떤 맥락인가? (선거 앞둔 시점, 신제품 출시 직후 등)
→ 타이밍도 메시지다
3. ‘누가 이 데이터에 포함되지 않았는가?’
→ 표본에서 누가 빠졌는가?
→ 침묵한 집단, 응답하지 않은 사람들은 어떤 사람들인가?
4. ‘이 데이터를 통해 말하고 싶은 건 무엇인가?’
→ 결국 이 숫자는 어떤 행동을 유도하고 싶은 걸까?
→ 클릭? 구매? 찬성? 관심?
데이터는 믿는 게 아니다. 해석하는 것이다.
데이터를 만든 사람의 입장을 읽어야
우리는 더 이상 ‘객관성의 포장지’에 속지 않는다.
기업의 보고서도, 뉴스 기사도, 피피티에 뜬 지표도,
그냥 숫자가 아니라 ‘누군가의 설계물’이다.
진짜 데이터 리터러시는,
숫자만 읽는 게 아니라
숫자를 만든 사람의 시선까지 함께 읽는 것이다.
[목차] Part1. 데이터는 왜 우리를 속이는가
[1장. “이 숫자, 진짜일까?”]
- 1-1. 매출이 200% 늘었다는데, 진짜 대박일까? ( Data literacy - 기저 효과 )
- 1-2. 평균의 함정: 내 월급은 왜 항상 평균보다 낮을까? ( Data literacy - 평균의 함정 )
- 1-3. 97%의 만족? 그 3%가 될 수 있는 나 ( Data literacy - 자기 선택 편향 )
- 1-4. 표본, 샘플, 응답률 — 누구 말을 믿을까? ( Data literacy - 비응답 편향 )
[2장. “그래프는 거짓말을 하지 않는다?”]
- 2-1. Y축만 깎았을 뿐인데 매출이 폭등했다 ( Data literacy - Y축 자르기 )
- 2-2. 누적 그래프와 막대 그래프 사이의 간극 ( Data literacy - 누적과 막대 그래프 )
- 2-3. 이중축 그래프, 도대체 뭘 비교하자는 거지? ( Data literacy - 상관관계와 인과관계 착각의 함정 )
- 2-4. 그래프는 ‘보여주는’ 게 아니라 ‘숨기는’ 도구일 때가 많다 ( Data literacy - 선택된 수치의 힘
[3장. “그래프는 거짓말을 하지 않는다?”]
- 3-1. 선택된 수치의 힘 ( Data literacy - 팩트가 많으면 진실에 가까운가? )
- 3-2. 데이터를 만든 사람의 입장 ( Data literacy - 데이터를 만든 사람의 입장 )
- 3-3. 중립을 가장한 편향 ( Data literacy - 중립을 가장한 편향 )
- 3-4. 팩트가 많으면 진실에 가까운가? ( Data literacy - 팩트가 많을수록 진실에 가까워질까? )
[4장. “당신이 클릭하는 순간, 데이터는 당신을 읽는다”]
- 4-1. 추천 알고리즘은 왜 내 취향을 이렇게 잘 알까? ( Data literacy - 추천 알고리즘은 왜 내 취향을 이렇게 잘 알까? )
- 4-2. 내가 뭘 본 줄 아는 ‘그들’의 시선 ( Data literacy - 내가 뭘 본 줄 아는 ‘그들’의 시선 )
- 4-3. 퍼스널라이징의 함정: 더는 우연이 없는 세상 ( Data literacy - 퍼스널라이징의 함정 )
- 4-4. 내가 만든 데이터가 나를 규정하는 순간 ( Data literacy - 내가 만든 데이터가 나를 규정하는 순간 )
'Data, AI, Tech. & Career' 카테고리의 다른 글
Data literacy - 내가 뭘 본 줄 아는 ‘그들’의 시선 (1) | 2025.04.15 |
---|---|
Data literacy - 추천 알고리즘은 왜 내 취향을 이렇게 잘 알까? (0) | 2025.04.14 |
Data literacy - 팩트가 많을수록 진실에 가까워질까? (0) | 2025.04.13 |
Data literacy - 중립을 가장한 편향 (0) | 2025.04.12 |
Data literacy - 숫자에 가려진 맥락 (0) | 2025.04.10 |
Data literacy - 선택된 수치의 힘 (0) | 2025.04.09 |
Data literacy - 상관관계와 인과관계 착각의 함정 (0) | 2025.04.09 |
Data literacy - 누적과 막대 그래프 (0) | 2025.04.08 |