반응형 데이터감각1 Data literacy - 정제되지 않은 데이터 5장 1절.정제되지 않은 데이터가 말하는 진짜 이야기“이 데이터, 좀 지저분한데요?”“빈칸도 많고, 숫자도 이상해요.”“정제 먼저 하고 분석합시다.”데이터 분석을 하자고 하면, 가장 먼저 나오는 말들이다. 하지만 정작 진짜 이야기는, 그런 ‘이상한 데이터’ 속에 있다. 현실 데이터는 깨끗하지 않다. 그리고 그게 정상이다. 실제 데이터를 처음 열어보면 이런 생각이 든다.“왜 이름이 두 개씩 있는 사람이 있지?”“날짜가 2021년, 2022년, 1022년? 오타인가?”“빈칸이 이렇게 많은데, 뭘 분석하라는 거지?”“이건 숫자고, 저건 문자열이고… 정리가 안 돼 있다.”그리고 곧 이런 말이 따라붙는다.“이건 못 써요.”“다시 받아오죠.”“클렌징부터 해야겠네요.”맞다. 정제는 중요하다. 하지만 우리는 너무 쉽게.. 2025. 4. 20. 이전 1 다음 반응형