패스트캠퍼스_비즈니스_빅데이터_분석가_양성과정_5기_이건우

BDA 5기_워크시트_이건우_220721 본문

데이터분석_워크시트

BDA 5기_워크시트_이건우_220721

이건우_데이터분석_교육과정기록 2022. 7. 15. 11:21

8주차 학습범위: 태블로 1~44

KDT(MGS BDA 5기) - 자유자재로 쓰는 태블로 대시보드 마스터 올인원 패키지 Online.

태블로는 어디에 쓸 것인가?

커리큘럼 소개

  • 태블로설치, 인터페이스 이해, 제품군 안내
  • 기본차트 그리기
  • 비율차트 그리기
  • 상관관계 및 분포를 표시하는 차트 그리기
  • 그 이외의 차트 그려보기

더 자세한 내용은 아래의 파일을 참고

Fast Campus Tableau Class - Study Guidebook - Ch01.pdf
0.60MB

태블로 설치

https://www.tableau.com/

 

Tableau: Business Intelligence and Analytics Software

Tableau is visual analytics software for business intelligence. See and understand any data with Tableau.

www.tableau.com

https://www.tableau.com/ko-kr/products/new-features

 

새로운 기능

디렉터리에서 파일의 하위 집합을 선택하는 데 새로운 속성을 사용할 수 있습니다.

www.tableau.com

노트북이나 데스크톱PC 사용을 기준으로 다운로드를 진행
태블로 설치
태블로 평가판 등록
태블로 시작화면

윈도우를 다시설치하게 되면 평가판 만료기간이 남았음에도 활성화되지 않습니다.

다른 이메일로 평가판을 다시 요청하면 해당 이메일의 주황색 버튼을 클릭해서 작성란을 채우면...

홈화면이 뜨고 평가판이 14일간 활성화됩니다.

그럼에도 태블로의 평가판이 활성화되지 않는다면 

아래 태블로 퍼블릭에 접속하셔서 계정을 등록하고 다운로드 받으시면 됩니다.

태블로도 계열별로 계정을 별도로 등록해야 한다고 합니다.

아무래도 무료로 사용하는 것인만큼 일부 기능이 제한될 것으로 예상되니 그점 감안하셔서 사용하시면 되겠습니다.

태블로 리더 설치

태블로 인터페이스

자세히 보면 설치한 파일을 연결할 수 있는 명단이 게시되어 있다.
시각화에 사용할 파일을 불러옵니다
파란색 영역은 차원입니다.
초록색 영역은 측정값입니다. Discount(할인), Profit(수익), Sales(매출), Quantity(양)이 이에 해당합니다.
워크시트를 실행하거나 추가했을 때 초기화면

태블로 제품 구성

데이터준비 >> 화면제작 >> 결과공유

태블로 프랩 >>>>>>>>>> 태블로 데스크탑 프로
태블로 데스크탑 퍼블릭
>>>>>>>>>> 태블로서버/온라인
>>>>>>>>>> 태블로 퍼블릭
>>>>>>>>>> 태블로 웹?

데스크탑과 퍼블릭의 차이

  태블로 데스크탑 태블로 퍼블릭
가격 연간 840달러로 추정(14일 무료체험) 무료
작업결과물 저장 개인 PC 온라인계정
접속 가능한 데이터 원본 태블로서버 포함 수십종류 서버 데이터 접속 불가
(엑셀, txt, pdf, 구글시트 등)
저장된 데이터 원본 및 샘플 워크북 있음 없음
기능 제한 없음(전부사용 가능) 없음(전부 사용가능)

ch01. 태블로 기본 차트

기본차트

이번 실습에 사용할 파일을 실행합니다. 실행하면 오른쪽의 창이 뜨는데 평가판 자격이 12일간 부여받았다는 것입니다. 그러므로 '평가판 계속'을 선택하겠습니다.

바차트(세로)

얼마나 많고 큰지 높이로 확인가능하다. 모든 지역과 카테고리를 포함한 전체 매출이 36억원을 기록하고 있다.

바차트(가로)

얼마나 많고 큰지 길이로 확인이 가능하다. 광역시도별로 매출을 분석한 결과 서울이 8억원으로 가장 많고 경기도가 7억원으로 두번째로 많았는데 인구등록수가 우리나라에서 가장 많은 지역이라는 특징을 갖는다. 반대로 세종특별자치시가 2천만으로 가장 낮고 제주특별자치도가 5천만으로 두번째로 적었다. 이는 광역특별시도 가운데 인구등록수가 가장 적은다는 특징을 갖는다. 

선그래프

연월일분기로 갈수록 얼마나 변했는지 추세를 확인할 수 있다. 모든 지역과 카테고리를 포함해서 연월별 매출이 얼마나 변했는지 확인할 수 있다. 연도를 기준으로 봤을 때 매출이 상승했다. 월별로 각각 최저매출과 최고매출을 산출한 결과 2017년에서 1월과 12월, 2018년에서 7월과 8월, 2019년에서 4월과 6월, 2020년에서 2월과 11월이다.

선그래프 응용 및 영역차트 추가

기존의 선그래프에 범위차트를 추가해서 필요한 정보를 한 곳에서 볼수 있게 한 것이다. 범위차트는 선그래프를 산출하는 방식은 비슷하지만 누적규모를 확인할 수 있다는 차이가 있다. 누적규모는 2020년 10월에 가장 많았고 2016년 11월이 가장 적었다. 전체적으로는 누적규모가 상승과 하강을 반복하면서도 시간이 지날수록 누적규모가 전체적으로 꾸준히 증가하는 추세이다.

비율차트

파이차트

카테고리별로 판매비중이 얼마나 크고 많은지 확인할 수 있다. 사무기기가 가장 높은비율이지만 가구도 비슷한 비율로 높았다. 사무용품이 뒤를 이었다. 이는 사무실을 구성하는데 필수요소이기 때문인 것으로 추정된다.

바차트 응용(비율)

카테고리를 행에서 제외시킨 결과로 파이차트와 비슷하게 카테고리별로 판매비중이 얼마나 크고 많은지 확인할 수 있다. 해석은 파이차트와 동일하다.

상관관계 및 분포차트

점그래프(Scatter Plot)

어느구간에서 얼마나 많이 분포하는지 확인이 가능하다. 매출대비 수익율이 어디에 위치했는지 표시되어있다. 오른쪽의 범례는 Propit(수익)으로 노란부분으로 갈수록 적자이고 파란부분으로 갈수록 흑자로 구분한다.

점그래프 내 추세선

평균할인율 대비 수익규모가 분포를 따라 직선으로 표현했다. 평균할인율이 높을수록 수익규모가 줄어드는 추세를 확인할 수 있다.

박스플롯(Box Plot)

최대값과 최소값을 표현하고 이상치값까지 산출함

히스토그램(Histogram)

구간차원으로 얼마나 되는지 확인했으며 0.00에서 0.10구간에서 고객이 가장 많았다.

Superstore KR - VizLab 2020.xlsx
1.29MB

 

위의 데이터파일로 데이터를 시각화하는데 참고함

그 외의 차트표현방식

히트테이블

색상의 명도로 크기를 확인할 수 있으며 어두울수록 측정값이 높다. 연도와 분기별로 판매량을 측정한 것인데 밝을수록 판매량이 적고 반대로 어두울수록 판매량이 많아진다. 가장 어두운 2020년 4분기에서 판매량이 많았으며 가장 밝은 부분은 2017년 1분기로 판매량이 가장 적다.

트리맵

해석은 히트테이블과 비슷하다. 색이 어둡거나 면적이 클수록 매출규모가 크고, 반대로 밝거나 면적이 작을수록 매출규모가 적다.

거품차트

히트테이블과 트리맵을 해석하는 방식은 비슷하지만 색상별로 광역시도별로 구분해서 전체매출규모를 표시한 것이다. 서울특별시와 경기도의 면적이 가장 컸으며 매출규모도 가장 컸다. 반대로 세종시와 제주도의 면적이 가장 작았으며 매출규모도 가장 작았다. 이 세가지를 시각화해서 공통적으로 해석하면 면적이 클수록 매출규모가 크지만 반대로 작을수록 매출규모도 작은 것이다.

목표화면리뷰

대시보드에 시각화한 결과를 하나의 시트로 모아놓은 것이다. 오른쪽이 예시화면이다. 색상별로 카테고리를 구분한다.

불러온 테이블 확인

대시보드에 올릴 그래프시각화에 활용할 데이터테이블은 다음과 같다.

카테고리별 합계 및 평균 - 바차트(세로) 시각화

레이블을 표시할 때 측정값테이블을 오른쪽클릭해서 기본속성>숫자형식>통화(사용자지정)으로 원기호를 표시해주고 세자리별로 콤마를 표시하도록 해준다. 매출과 수익은 합계로 산출하지만 할인율은 평균으로 기준을 잡아서 수식을 표시해 준다. 매출과 수익 및 할인율의 크기를 확인할 수 있다.

카테고리별 구성비율 - 바차트(가로) 시각화

열을 구성한 부분에 오른쪽 클릭해서 구성비율로 맞춰주면 백분율로 나누어서 매출과 수익의 비중이 얼마인지 확인할 수 있다. 바차트(세로)처럼 기준을 잡아서 수식을 표시해 준다.

분기별 트렌드 선그래프 시각화

선그래프 안의 윤곽선 제거

세가지의 선그래프를 완성했지만 윤곽선을 제거하는걸 깜박했습니다. 서식에서 라인을 클릭합니다. 시트에서 선을 모두 없음으로 처리해야 행과 열의 윤곽선을 없애는 번거로움을 줄이고 시간도 단축할 수 있어요.

워크시트 이름 바꾸기

세가지의 선그래프의 윤곽선을 제거했습니다. 마지막으로 워크시트의 이름을 지정해야 겠지요. 첫번째시트는 분기별 매출트렌드로 작성했고, 두번째는 매출에서 수익으로 세번째는 수익에서 할인율로 변경했습니다.

대시보드에 데이터시각화 차트배치

카테고리별 규모와 구성비율 그리고 트렌드를 시각화한 것들을 대시보드에 개체별로 배치한다. 배치하는 순서는 세로>텍스트>가로순으로 한다.

대시보드에 넣지 못한 데이터시각화 차트배치

Sales(매출), Profit(수익), Discount(할인율)을 시각화한 차트는 모두 들어갔습니다. 빈페이지를 제외하고는요. 그러고 보니 나머지 하나가 측정값에 있었습니다. 그 중 하나가 Quantity(판매량)로 크기와 구성비율 그리고 선그래프로 시각화 한 후 대시보드에 채워넣었습니다. 그렇게 해서 대시보드에 모든 그래프를 가득 채워넣었습니다.

Fast Campus Tableau Class - Ch01.pdf
0.35MB

 

 

ch02. 태블로의 근간 핵심개념

Fast Campus Tableau Class - Study Guidebook - Ch02.pdf
0.52MB

 

 

이번 데이터시각화를 ch01에 있었던 데이터를 사용할 것임. 

차원과 측정값

[1]-1. 차원과 측정값.pdf
2.94MB

 

연속형과 불연속형

 

 

[1]-2. 연속형과 불연속형 (2).pdf
2.53MB

 

Level of Detail

 

 

[1]-3. Level of Detail.pdf
1.81MB

 

네가지 계산

 

대시보드와 스토리

 

목표화면리뷰

 

 

 

 

 

 

 

 

4년간의 매출 트렌드 대시보드.twb
0.16MB
Fast Campus Tableau Class - Ch02.pdf
0.35MB

 

ch03. 태블로 필수기능

Fast Campus Tableau Class - Study Guidebook - Ch03.pdf
0.54MB

데이터준비

데이터 테이블 살펴보기

엑셀파일 확인

바차트(세로) 시각화

1번과 3번을 조인한 카테고리별 매출과 목표매출
1번과 3번시트를 유니온으로 병합한 카테고리별 매출

필터

바차트(세로) 

카테고리별 지역전체매출

 

카테고리별 충청북도매출

점그래프 시각화

매출별 수익의 카테고리 합계분포

 

바차트(세로)를 구성비율로 전환

광역시도별 매출 중 카테고리별 구성비율

지도의 기능을 사용하기 위한 Vworld설치

이중축 Combined Axis Chart

이중축

결합축

이중축과 결합축의 응용

이중축의 의미

분석패널

 

지도

 

목표화면리뷰

테이블 살펴보기

데이터 전처리(조인으로 합치기)

 

 

 

 

 

 

 

 

 

아래 확장자 twbx가 태블로 데스크톱(프로페셔널) 버전을 설치해야 정상실행되지만 퍼블릭에선 오류가 발생합니다.

Fast Campus Tableau Class - Ch03_v2020.2.twbx
2.71MB
Fast Campus Tableau Class - Ex03_v2020.2.twbx
2.90MB
Fast Campus Tableau Class - Ch03.pdf
0.51MB

ch04. 태블로 스킬 기초

Fast Campus Tableau Class - Study Guidebook - Ch04.pdf
0.54MB
All about PARAMETERS in Tableau.pdf
8.75MB
Fast Campus Tableau Class - Ch04.pdf
0.42MB

필드베이직 IF함수, 매개변수, 집합을 반영한 목표화면리뷰

Comments