정제되지 않은 데이터가 말하는 진짜 이야기
“빈칸도 많고, 숫자도 이상해요.”
“정제 먼저 하고 분석합시다.”
데이터 분석을 하자고 하면, 가장 먼저 나오는 말들이다. 하지만 정작 진짜 이야기는, 그런 ‘이상한 데이터’ 속에 있다.
현실 데이터는 깨끗하지 않다. 그리고 그게 정상이다. 실제 데이터를 처음 열어보면 이런 생각이 든다.
- “왜 이름이 두 개씩 있는 사람이 있지?”
- “날짜가 2021년, 2022년, 1022년? 오타인가?”
- “빈칸이 이렇게 많은데, 뭘 분석하라는 거지?”
- “이건 숫자고, 저건 문자열이고… 정리가 안 돼 있다.”
그리고 곧 이런 말이 따라붙는다.
- “이건 못 써요.”
- “다시 받아오죠.”
- “클렌징부터 해야겠네요.”
맞다. 정제는 중요하다. 하지만 우리는 너무 쉽게 ‘이상한 데이터’를 무시하거나 버리려 한다.
그런데 말이야, 이상한 데이터는 현실을 알려주는 힌트야. 빈칸은 의미 없는 게 아니다. 빈칸이 많다는 건,
- “사람들이 여기에 대답하지 않으려 했구나.”
- “이 항목은 수집 자체가 어려웠나 보다.”
- “여기서 문제가 있었구나.”
를 알려주는 신호일 수 있다.
날짜 오타가 났다고? 그건 입력 시스템이 허술하거나, 데이터를 입력하는 사람이 혼란을 겪고 있다는 증거일 수 있다.
주소가 이상하게 중복돼 있다고? 그건 아마도 한 사람이 두 개의 채널로 신청했을 수도 있고, 사람들이 이름을 다르게 쓰는 경향이 있다는 뜻일 수도 있다.
정제되지 않은 데이터는 “그냥 더러운 것”이 아니라, “현실이 반영된 것”이다.
엑셀을 몰라도 데이터 감각은 생길 수 있다
많은 사람들이 생각한다. “나는 엑셀을 잘 못해서 데이터 분석은 무리예요.”
“함수? 피벗? 차트? 어렵던데요…”
하지만 진짜 데이터 감각은 거기서 시작하지 않는다. 눈치채는 능력에서 시작된다.
예를 들어보자. 어떤 사람은 판매 기록을 보며 이렇게 말한다.
- “이상하네, 이 제품은 주말마다 유난히 많이 팔리네요?”
- “왜 이 항목만 유독 환불률이 높죠?”
- “여긴 갑자기 데이터가 확 줄어드네요. 무슨 일 있었나요?”
이런 “왜지?”라는 질문을 던질 수 있는 게 바로 데이터 감각이다.
엑셀로 숫자를 정리하지 못해도, 변화를 눈으로 볼 수 있고, 이상한 점을 캐치할 수 있다면 당신은 이미 ‘데이터 리터러시’를 갖춘 사람이다.
현실의 데이터를 보는 3단계 감각 훈련
- 🔍 1단계: “눈에 띄는 걸 말로 설명해보기”
숫자 분석보다 먼저, ‘이상해 보이는 것’을 말로 설명해보자.
[예] “여기선 데이터가 갑자기 줄었어요”, “이 날짜는 왜 중복됐을까요?”, “이 항목만 입력이 비어 있네요?”
📍 분석보다 먼저, 관찰이 중요하다.
- 🔍 2단계: “이건 왜 그럴까?”를 3번만 스스로 물어보기
관찰 후에는 이렇게 스스로 질문해보자.
“왜 이런 빈칸이 생겼을까?”, “왜 여기는 값이 튈까?”, “혹시 내가 놓친 맥락이 있을까?”
📍 질문이 많아질수록 감각은 넓어진다.
- 🔍 3단계: “그냥 흘려보내지 말고, 이상한 걸 표시해보기”
엑셀을 못해도 괜찮다. 눈에 이상한 부분을 표시해보자.
→ “여기 문제 있음”, “이건 이상치처럼 보임”, “확인 필요”
📍 데이터를 ‘의심하면서 본다’는 태도 자체가 감각이다.
실무에서 ‘깨끗한 데이터’는 거의 없다
회사에서, 팀에서, 현장에서 만나는 데이터는 대부분 …
- 항목이 덜 채워졌거나
- 항목이 중복됐거나
- 기준이 바뀌었거나
- 담당자에 따라 형식이 달라진 경우가 많다
그걸 보고 당황하지 않고, 그 안에서 의미를 찾으려는 사람. 그게 바로 진짜 실무형 데이터 감각을 가진 사람이다.
정제된 데이터는 분석에 좋고, 정제되지 않은 데이터는 현실을 보여준다.
현실을 이해할 줄 아는 사람이 결국 정제된 숫자도 더 잘 다룬다.

[5장. “ 엑셀과 친하지 않아도 데이터 감각은 생긴다 ”]
- 5-1. 정제되지 않은 데이터가 말하는 진짜 이야기 ( Data literacy - 정제되지 않은 데이터)
- 5-2. 쓸모 있는 시각화 vs 보기 좋은 장식 ( Data literacy - 쓸모 있는 시각화 )
- 5-3. 숫자보다 더 중요한 ‘비정형 데이터’ 다루기 ( Data literacy - 비정형 데이터 )
- 5-4. 나만의 데이터 리포트, 어떻게 시작할까? ( Data literacy - 나만의 데이터 리포트 )
'Data, AI, Tech. & Career' 카테고리의 다른 글
Data literacy - 나만의 데이터 리포트 (0) | 2025.04.23 |
---|---|
Data literacy - 비정형 데이터 (0) | 2025.04.22 |
Data literacy - 쓸모 있는 시각화 (0) | 2025.04.21 |
Data literacy - 내가 만든 데이터가 나를 규정하는 순간 (1) | 2025.04.18 |
Data literacy - 퍼스널라이징의 함정 (0) | 2025.04.16 |
Data literacy - 내가 뭘 본 줄 아는 ‘그들’의 시선 (1) | 2025.04.15 |
Data literacy - 추천 알고리즘은 왜 내 취향을 이렇게 잘 알까? (0) | 2025.04.14 |
Data literacy - 팩트가 많을수록 진실에 가까워질까? (0) | 2025.04.13 |