[TIL] 19일차 TIL(20230303) - Tableau 고급 1
[TIL] 19일차 TIL(20230303) - Tableau 고급 1
1. 그룹 vs 집합
- 태블로에서 그룹은 특정 범주들을 하나의 범주로 묶어서 표현하는 것 ex) 4개의 범주들을 그룹으로 묶어서 하나의 범주로 표현
- 집합은 특정 범주들을 묶어주기는 하지만 개별적인 값으로 남아있음, 특정 범주들에만 추가적인 옵션을 지정해주고 싶을 때 사용
- 직접 값들을 하나씩 지정해서 사용하는 정적 방식이 있고, 컬럼에 특정 조건을 지정하여 유동적으로 선택해주는 동적 방식이 있음
- [컬럼] - [만들기] - [집합] - [조건/상위]
- 공통된 차원에 있는 두 집합을 결합하여 새로운 집합을 만들 수도 있음
2. 참조선 사용
- 매개변수를 사용해서 값을 조정하는 경우 조정된 값들의 범위를 눈에 띄게 표현하기 위한 참조선을 사용할 수 있음
- 축에서 참조선 값을 매개변수로 지정하면 매개변수의 조정에 따라 참조선이 이동하면서 해당 영역을 알려줌
집합을 이용해 비용과 수익의 커트라인을 설정하고 해당 조건을 만족하는 스타트업들을 표현했다. 비용과 수익의 커트라인은 참조선을 사용해 더 가시적으로 표현할 수 있도록 했다. 특히 높은 성장률을 보인 스타트업들을 빨간색 별로 추가적으로 표현하여, 종합적으로 판단했을 때 가장 우수한 스타트업들을 알아보기 쉽게 나타냈다.
3. 테이블 계산
- 일반 퀵 테이블 계산은 한 컬럼에서 좌에서 우로 계산하는 것을 기본으로 하지만 컬럼간 연산도 가능
- [테이블 계산] - [테이블(아래로)]를 선택하면 시트의 위 컬럼에서 아래 컬럼을 대상으로 순차적으로 계산한 결과를 반환
- 혹은 특정 컬럼을 명시하여 컬럼간 퀵 테이블 계산도 가능
4. 유용한 계산 필드 함수
- 집계된 수준에서 적용 가능
- 계산된 필드 만들기에서 사용할 수 있는 다양한 함수에 대한 설명을 제공
- LOOKUP(명령, 위치): 현재로부터 해당 위치만큼 이동한 곳에서 명령문을 시행하여 결과를 반환
- WINDOW_AVG(식, [시작, 끝]): 이동평균, 예를 들어 WINDOW_AVG(sum(수익), -2, 0)이라면 이전 두 행에서 현재 행까지의 sum(수익) 평균
- IF THEN 명령어를 통해 함수를 사용할 구체적인 조건을 명시해줄 수 있음
# 8개의 이동평균을 계산할 때, 이전 8개의 값이 모두 있다면 이동평균을 적용하고
# 그렇지 않으면 적용하지 않는 코드
IF (WINDOW_COUNT([Idle Capacity Percent pro], -7, 0) = 8)
THEN WINDOW_AVG([Idle Capacity Percent pro], -7, 0)
ELSE NULL
END
석탄을 운반하는 기계들의 8시간동안의 유휴생산능력의 이동평균을 시간에 따라 나타낸 그래프이다. 만약 해당 지표가 10%가 넘는다면 기계에 문제가 있어 보수가 필요하다고 판단할 수 있다. 추가적으로 추세선을 그려 미래의 동향을 간단하게 예측해볼 수 있다.
RL1의 그래프는 기울기가 점차 증가하고 있는 형태이며 현재에도 계속 유휴생산능력의 이동평균값이 10%를 넘는 구간이 지속적으로 등장하므로 유지보수가 필요함을 알 수 있다.
RL2와 SR1의 그래프는 10%를 넘는 구간이 존재하지 않으며, 추세선 또한 평평하다. 다만 SR1 추세선의 경우에는 통계적으로 유의하지 않으므로 주의가 필요하다.
SR4A 그래프는 유휴생산능력의 이동평균이 10%를 넘는 구간은 존재하지 않았지만, 추세선을 그렸을 때 기울기가 상당히 가파르게 증가하고 있다. 따라서 9월에는 넘지 않았을지라도 10월에 접어들면 10%이상에 도달할 확률이 높다. 추세선을 통해 아직 발생하지 않았지만 미래의 동향을 살펴보고 기계를 미리 정비하여 고장을 예방할 수 있을 것이다.
SR6 그래프의 특정 지점에서 유휴생산능력의 이동평균이 10%를 넘는 갑작스러운 상승구간이 존재하는데, 이는 같은 라인에서 작동하는 RL2와의 상호작용중에 일어난 결과이며, 기계의 유지보수가 필요한 부분이라고 보기는 어렵다. 실제로 RL2의 그래프를 살펴보면 SR6에서 10%를 넘는 구간의 유휴생산능력 이동평균이 매우 낮은 값을 가지고 있는 것을 확인할 수 있다.
5. 박스플롯의 해석
- 박스플롯의 퍼진 정도가 작을 수록 분산이 작다. 즉 변동성이 작다고 말할 수 있다. 현실 문제에서 변동성이 적다는 것은 불확실성이 낮고 정확성이 높다는 말이기도 하다. 일반적인 경우에 불확실성이 높은 것보다는 낮은 경우가 더 좋은 경우로 해석할 수 있다.
- 분산이외에도, 중앙값 등의 추가적인 정보나 이상치 유무 등을 통해 그래프를 해석할 수 있다.
6. 데이터 불러오기 및 전처리
- 데이터를 불러오는 과정에서 필터를 적용하여 필요한 데이터만 선별하여 가져올 수 있음
- 특정 값을 제외하거나, 날짜나 값의 구간을 설정하여 해당 데이터만 필터링
- 컬럼을 제외할 때는 [숨기기] 기능을 사용
- 태블로에서는 열의 모든 값이 NULL일 때, 문자형으로 반환 -> 삭제할 때 유용
- 특정 구분자에 대해 하나의 열을 분리하고 싶을 때에는 [분할(split)]기능 사용
호주 전체의 통계를 살펴보면 전체적으로 모든 산업의 매출액이 증가하고 있음을 알 수 있다. 전체적으로 모든 산업에서 계절성이 나타나는데 특히 의류, 백화점 산업에서 계절성이 도드라진다. 12월에 가장 높고 2월에 가장 낮은 규칙성을 띄는데 12월은 연말을 맞아 소비가 많이 이루어짐을 추측할 수 있고, 12월에 지출한 내역에 대해 카드값을 지불할 2월에는 소비에 소극적이어진다고 추측할 수 있다.
첨부하지 않았지만 출판업의 경우 디지털 기기가 보급되기 이전에는 매출의 상승세를 보였지만 점차 상승세가 줄어들었고, 최근에는 하락세를 보이고 있다.
소감 및 정리
기초 강의를 다 듣고 조금 더 상세한 내용들을 다루는 고급 강의를 듣게 되었는데, 태블로 자체가 직관적으로 이루어진 부분이 많아서 다루는 부분이 크게 어렵지는 않았다. 그리고 기초 강의에서도 매개변수, 필터, 그룹 등 내용들을 한번씩은 다루고 넘어왔기 때문에 처음만큼 많이 헤매지는 않았던 것 같다. 다만 테이블 계산 부분의 내용은 확실하게 이해하지 못했는데 추후에 복습하고, 오프라인 강의로 수강하면서 꼭 짚고 넘어가야 할 것 같다! 아직은 강의를 보면서 따라하기만 하는 수준이지만, 데이터를 직접 구해서 자유롭게 시각화를 진행하고 인사이트를 발굴하는 과정을 진행하면 더 재밌을 것 같다. 오프라인 강의에서 그런 기회가 주어지는 것으로 알고있어서 기대가 된다!