Diary, Data, IT

[TIL] 19일차 TIL(20230303) - Tableau 고급 1 본문

STARTERS/TIL

[TIL] 19일차 TIL(20230303) - Tableau 고급 1

라딘 2023. 3. 3. 17:26

 

 

[TIL] 19일차 TIL(20230303) - Tableau 고급 1

 

 

 

1. 그룹 vs 집합
- 태블로에서 그룹은 특정 범주들을 하나의 범주로 묶어서 표현하는 것 ex) 4개의 범주들을 그룹으로 묶어서 하나의 범주로 표현
- 집합은 특정 범주들을 묶어주기는 하지만 개별적인 값으로 남아있음, 특정 범주들에만 추가적인 옵션을 지정해주고 싶을 때 사용
- 직접 값들을 하나씩 지정해서 사용하는 정적 방식이 있고, 컬럼에 특정 조건을 지정하여 유동적으로 선택해주는 동적 방식이 있음
- [컬럼] - [만들기] - [집합] - [조건/상위]
- 공통된 차원에 있는 두 집합을 결합하여 새로운 집합을 만들 수도 있음


2. 참조선 사용
- 매개변수를 사용해서 값을 조정하는 경우 조정된 값들의 범위를 눈에 띄게 표현하기 위한 참조선을 사용할 수 있음
- 축에서 참조선 값을 매개변수로 지정하면 매개변수의 조정에 따라 참조선이 이동하면서 해당 영역을 알려줌

비용, 수익, 성장률을 고려한 스타트업 선정

집합을 이용해 비용과 수익의 커트라인을 설정하고 해당 조건을 만족하는 스타트업들을 표현했다. 비용과 수익의 커트라인은 참조선을 사용해 더 가시적으로 표현할 수 있도록 했다. 특히 높은 성장률을 보인 스타트업들을 빨간색 별로 추가적으로 표현하여, 종합적으로 판단했을 때 가장 우수한 스타트업들을 알아보기 쉽게 나타냈다.

 

 

3. 테이블 계산
- 일반 퀵 테이블 계산은 한 컬럼에서 좌에서 우로 계산하는 것을 기본으로 하지만 컬럼간 연산도 가능
- [테이블 계산] - [테이블(아래로)]를 선택하면 시트의 위 컬럼에서 아래 컬럼을 대상으로 순차적으로 계산한 결과를 반환
- 혹은 특정 컬럼을 명시하여 컬럼간 퀵 테이블 계산도 가능


4. 유용한 계산 필드 함수
- 집계된 수준에서 적용 가능
- 계산된 필드 만들기에서 사용할 수 있는 다양한 함수에 대한 설명을 제공
- LOOKUP(명령, 위치): 현재로부터 해당 위치만큼 이동한 곳에서 명령문을 시행하여 결과를 반환
- WINDOW_AVG(식, [시작, 끝]): 이동평균, 예를 들어 WINDOW_AVG(sum(수익), -2, 0)이라면 이전 두 행에서 현재 행까지의 sum(수익) 평균
- IF THEN 명령어를 통해 함수를 사용할 구체적인 조건을 명시해줄 수 있음

 

# 8개의 이동평균을 계산할 때, 이전 8개의 값이 모두 있다면 이동평균을 적용하고
# 그렇지 않으면 적용하지 않는 코드

IF (WINDOW_COUNT([Idle Capacity Percent pro], -7, 0) = 8)
THEN WINDOW_AVG([Idle Capacity Percent pro], -7, 0)
ELSE NULL
END

 

 


석탄을 운반하는 기계들의 8시간동안의 유휴생산능력의 이동평균을 시간에 따라 나타낸 그래프이다. 만약 해당 지표가 10%가 넘는다면 기계에 문제가 있어 보수가 필요하다고 판단할 수 있다. 추가적으로 추세선을 그려 미래의 동향을 간단하게 예측해볼 수 있다.

RL1의 그래프는 기울기가 점차 증가하고 있는 형태이며 현재에도 계속 유휴생산능력의 이동평균값이 10%를 넘는 구간이 지속적으로 등장하므로 유지보수가 필요함을 알 수 있다.

RL2와 SR1의 그래프는 10%를 넘는 구간이 존재하지 않으며, 추세선 또한 평평하다. 다만 SR1 추세선의 경우에는 통계적으로 유의하지 않으므로 주의가 필요하다.

SR4A 그래프는 유휴생산능력의 이동평균이 10%를 넘는 구간은 존재하지 않았지만, 추세선을 그렸을 때 기울기가 상당히 가파르게 증가하고 있다. 따라서 9월에는 넘지 않았을지라도 10월에 접어들면 10%이상에 도달할 확률이 높다. 추세선을 통해 아직 발생하지 않았지만 미래의 동향을 살펴보고 기계를 미리 정비하여 고장을 예방할 수 있을 것이다.

SR6 그래프의 특정 지점에서 유휴생산능력의 이동평균이 10%를 넘는 갑작스러운 상승구간이 존재하는데, 이는 같은 라인에서 작동하는 RL2와의 상호작용중에 일어난 결과이며, 기계의 유지보수가 필요한 부분이라고 보기는 어렵다. 실제로 RL2의 그래프를 살펴보면 SR6에서 10%를 넘는 구간의 유휴생산능력 이동평균이 매우 낮은 값을 가지고 있는 것을 확인할 수 있다.


5. 박스플롯의 해석
- 박스플롯의 퍼진 정도가 작을 수록 분산이 작다. 즉 변동성이 작다고 말할 수 있다. 현실 문제에서 변동성이 적다는 것은 불확실성이 낮고 정확성이 높다는 말이기도 하다. 일반적인 경우에 불확실성이 높은 것보다는 낮은 경우가 더 좋은 경우로 해석할 수 있다. 
- 분산이외에도, 중앙값 등의 추가적인 정보나 이상치 유무 등을 통해 그래프를 해석할 수 있다.


6. 데이터 불러오기 및 전처리
- 데이터를 불러오는 과정에서 필터를 적용하여 필요한 데이터만 선별하여 가져올 수 있음
- 특정 값을 제외하거나, 날짜나 값의 구간을 설정하여 해당 데이터만 필터링
- 컬럼을 제외할 때는 [숨기기] 기능을 사용
- 태블로에서는 열의 모든 값이 NULL일 때, 문자형으로 반환 -> 삭제할 때 유용
- 특정 구분자에 대해 하나의 열을 분리하고 싶을 때에는 [분할(split)]기능 사용

호주의 산업군별 매출액

 

호주 전체의 통계를 살펴보면 전체적으로 모든 산업의 매출액이 증가하고 있음을 알 수 있다. 전체적으로 모든 산업에서 계절성이 나타나는데 특히 의류, 백화점 산업에서 계절성이 도드라진다. 12월에 가장 높고 2월에 가장 낮은 규칙성을 띄는데 12월은 연말을 맞아 소비가 많이 이루어짐을 추측할 수 있고, 12월에 지출한 내역에 대해 카드값을 지불할 2월에는 소비에 소극적이어진다고 추측할 수 있다.

첨부하지 않았지만 출판업의 경우 디지털 기기가 보급되기 이전에는 매출의 상승세를 보였지만 점차 상승세가 줄어들었고, 최근에는 하락세를 보이고 있다.




 

 

소감 및 정리

기초 강의를 다 듣고 조금 더 상세한 내용들을 다루는 고급 강의를 듣게 되었는데, 태블로 자체가 직관적으로 이루어진 부분이 많아서 다루는 부분이 크게 어렵지는 않았다. 그리고 기초 강의에서도 매개변수, 필터, 그룹 등 내용들을 한번씩은 다루고 넘어왔기 때문에 처음만큼 많이 헤매지는 않았던 것 같다. 다만 테이블 계산 부분의 내용은 확실하게 이해하지 못했는데 추후에 복습하고, 오프라인 강의로 수강하면서 꼭 짚고 넘어가야 할 것 같다! 아직은 강의를 보면서 따라하기만 하는 수준이지만, 데이터를 직접 구해서 자유롭게 시각화를 진행하고 인사이트를 발굴하는 과정을 진행하면 더 재밌을 것 같다. 오프라인 강의에서 그런 기회가 주어지는 것으로 알고있어서 기대가 된다!