본문 바로가기
Tableau

Part 2. Data collection & Pre-Processing

by InfosGalaxy 2025. 2. 11.
반응형

Data Collection

//ㄲ

  1. 요구 사항(목적) 명확화
  2. 수집할 데이터 format 에 대한 논의 (확장성 고려한 논의 필요)
  3. 데이터 수집 방법 정리
  4. 수집 주기와 운영에 대한 논의

대부분은 이미 수집 되어진 데이터를 바탕으로 데이터 전처리가 필요하다면 진행하게 됩니다. 하지만 데이터 수집이 필요한 경우 고려해야 할 것이 있습니다.

Data Collection & Pre-processing

Data Pre-processing

데이터 전처리 과정은 시각화를 위해 꼭 필요한 작업입니다. 사람이 업무를 진행할 때 사용하는 데이터 형식을 시각화에 그대로 사용하게 되면 우리가 원하는 형태의 시각화 작업을 할 수 없는 경우가 발생하게 됩니다. 우리는 여기서 전처리 방법 (prep, excel, based on code, etc.)이 여러가지 있지만 prep을 통해 진행하는 방법을 간단히 과제에 필요한 부분만 얘기하겠습니다.

 

1. Prep을 실행하고 연결에 + 단추를 눌러서 첨부된 Excel을 연결합니다.

 

2. Excel 연결하면 sheet 정보 확인 가능합니다. raw sheet가 한 개라 자동으로 연결이 되었습니다. sheet가 더 있다면 연결할 sheet 값을 drag & drop하면 됩니다.

3. 첨부된 raw data는 시계열 데이터를 가지고 있는데요. 현재 데이터 format은 시계열 데이터로 활용할 수 없습니다. + 버튼을 누르면 피벗 동작을 할 수 있습니다.

 

4. 피벗을 선택하게 되면 아래와 같이 column 값들이 보이고 피벗될 필드에 컬럼을 가져오면 피벗이 진행됩니다. (아래 pivot과 melt의 활용에 대한 설명이 있습니다.)

 

5. 16년~26년까지 column을 피벗된 필드로 가져옵니다. 아래와 같이 피벗이 동작하는 것을 확인 하실 수 있습니다. 다음은 피벗을 진행한 column에 이름을 바꿔야 합니다.

 

6. 피벗 결과에서 피벗1 이름을 필드명 바꾸기로 년도로 변경합니다.

 

7. 피벗 결과가 아래와 같이 되도록 변경합니다. (년 → 값)

 

8. 가장 간단하지만 많이 사용하는 전처리 작업을 완료하였습니다. 서버가 있다면 오른쪽 상단에 보이는 게시를 통해 flow를 등록 하면 일정 주기마다 자동 실행되게 됩니다. 


Melt vs Pivot

melt

  • "Reshape to Long Format" (긴 형식으로 변환)
  • "Unpivot" (피벗을 해제)
  • "Column-to-Row Transformation" (열을 행으로 변환)
  • "Data Normalization for Visualization" (시각화를 위한 데이터 정규화)

melt() 사용하여 열(column) 형태로 저장된 데이터를 행(row) 형태로 변환하면 시각화 및 분석이 쉬워집니다.

하나의 컬럼으로 합쳐졌기 때문에 같은 축을 공유하면서도 구분이 용이합니다.

melt()를 사용해야 하는 경우

  1. 여러 개의 열을 한 범주(Category)로 묶어야 할 때
  2. 시계열 데이터에서 변수 간 비교가 필요할 때
  3. Seaborn, Matplotlib 등의 라이브러리로 쉽게 시각화하고 싶을 때
  4. 데이터 분석 및 피벗 테이블을 만들 때 유리하게 변환하고 싶을 때

📌 데이터 분석, 시계열 비교, 머신러닝 등의 전처리 과정에서도 필수적이다.

Pivot

  • "Pivot Table" (피벗 테이블)
  • "Row-to-Column Transformation" (행을 열로 변환)
  • "Summarizing Data in a Table" (데이터를 테이블로 요약)
  • "Creating a Summary Table" (요약 테이블 만들기)

pivot() 함수는 데이터를 넓은(Wide) 형식으로 변환하는 기능을 합니다. 특히, 중복되지 않은 데이터를 특정 열을 기준으로 다시 구조화할 때 유용합니다.

여러 개의 행으로 분리된 데이터를 다시 개별 열(column)로 정리할 때 유용합니다.

데이터 분석 및 보고서를 만들 때 직관적으로 보기 좋게 구성할 수 있습니다.

pivot()이 유리한 경우

  1. 보고서나 대시보드에 데이터를 한눈에 보기 쉽게 정리할 때
  2. 시간별(Year), 지역별(Region), 제품별(Product) 등의 특정 기준으로 데이터를 비교할 때
  3. 시계열 분석에서 여러 변수를 한 표로 정리할 때
  4. 중복되지 않는 데이터를 기준으로 재구조화할 때

📌 데이터를 직관적으로 요약하고 정리하는 데 강력한 도구!


Part 1. Tableau 시작

 

Part 1. Tableau 시작

Tableau Public Desktop 설치 방법과 기본 사용 가이드 아래 버튼으로 다운 받으세요. Tableau Public Desktop Download   이후 Site에 가입하시고 사용할 수 있습니다. 이제 Tableau Desktop Public Edition에서도 로컬

infogalaxy.co.kr

 

반응형