Diary, Data, IT

[TIL] 40일차 TIL(20230403) - Tableau GooglePlayStore 프로젝트 2 본문

STARTERS/TIL

[TIL] 40일차 TIL(20230403) - Tableau GooglePlayStore 프로젝트 2

라딘 2023. 4. 4. 14:41

 

 

[TIL] 40일차 TIL(20230403) - Tableau GooglePlayStore 프로젝트 2

 

 

 

GooglePlayStore 프로젝트

프로젝트의 마지막 날로, 대시보드와 발표자료를 완성했다. 대시보드를 완성하기 위해 먼저 전반적인 스토리라인을 구상했다.

 

1) 대시보드의 메인 페이지에서 전체적인 현황을 보여주고,

2) 잠재력 있는 앱과 인기 있는 앱을 기준으로 한 현황을 보여준다.

3) 리스트를 보여주는 대시보드를 만들어 잠재력 있는 앱과 인기 있는 앱의 상세 정보를 확인할 수 있도록 구성한다.

 

이 스토리라인을 토대로 완성한 대시보드와 발표자료는 다음과 같다.

 

1. 목적 및 현황

 

목적: 유저별로 알맞은 App을 추천해주기 위한 카테고리별 잠재력을 가진 App과 인기있는 App을 선정해내는 것

 

구글 플레이스토어는 인 앱 결제에서 발생하는 수수료나 광고를 통해 수익을 올리고 있기 때문에, 성장 가능성이 높은 잠재력이 있는 App 이나 인기 있는 App 을 추천 목록에 우선 등록하여 홍보하면 어플이 성장함에 따라 구글 플레이스토어의 매출에도 긍정적인 영향을 줄 것이라고 생각하여 해당 주제를 선정하였다.

 

 

처음 제공받았던 데이터셋은 총 2가지로, 전체 앱 정보에 대한 데이터와 유저의 리뷰 정보를 담고 있는 데이터였다. 그러나 유저의 리뷰 정보 데이터셋을 살펴봤을 때, 전체 앱의 11.13%에 대한 정보만 제공되어 있었고 그 안에 Null 값이 들어있는 경우도 많아 데이터셋의 신뢰성이 떨어진다고 판단하였다. 추가로 카테고리로 분류했을 때, 하나의 카테고리 안에 속해있는 앱의 개수가 적어 추천해주기에는 어렵다는 생각이 들어 해당 데이터셋은 사용하지 않았다.

 

 

또 추가적으로 데이터셋을 살펴봤을 때, 중복 데이터가 존재하여 삭제해주었다. 1) 리뷰 수만 다르고 나머지는 중복된 경우에는 리뷰 수가 가장 큰 행만 남기고 나머지는 제거하였고, 2) 모든 필드 값이 중복된 경우에는 하나의 행만 남기고 모두 삭제하였다. 이 과정은 SQL 쿼리문을 이용해 수행하였다.

 

 

잠재력과 인기 있는 앱의 기준을 정하기 위해 Installs의 분포를 확인했습니다. 결론적으로 사분위수를 구해 25%~75% 에 속하는, install 수가 1,000부터 1,000,000까지의 앱들을 잠재력이 있는 앱들이라고 판단했습니다. 75% 이상인 install 수가 5백만 이상인 앱들은 인기 앱으로 판단하고, 25% 이하인 앱들은 잠재력을 가지고 있다고 생각하기에는 이용자 수가 현저히 적고 리뷰 수도 적어 신뢰성이 떨어진다고 판단했습니다.

 

 

리뷰 수와 Rating을 종합적으로 평가하여 하나의 점수를 만들고, 점수가 높은 앱이 잠재력이 있다고 평가하고자 했다. 하지만 단순 리뷰 수를 사용하기에는 왼쪽 그래프에서와 같이 다운로드 횟수가 늘어날수록 리뷰 수가 증가하는 관계가 존재했다. 결국 다운로드 횟수가 점수에 절대적인 영향을 미치는 문제가 있었는데, 이는 현재 다운로드 수가 적더라도 성장할 가능성이 있는, 잠재력을 평가하고자 하는 저희 목적에 부합하지 않았다. 따라서 동일 다운로드 수에 비해 리뷰가 얼마나 많이 달렸는지를 평가하고자 리뷰 수 표준화를 진행했다.

표준화 과정에서 Install 이외에도 카테고리별로 평균 리뷰 수에 유의미한 차이를 보여, 최종적으로 install과 category 차원을 고정시켜 평균 리뷰 수를 구하고, 이를 각 앱의 리뷰 수에 나눠서 표준화를 진행했다.

 

 

표준화한 결과에 평균 리뷰 점수를 곱해 최종적인 잠재력 Score를 생성했다. 그리고 이 점수를 카테고리별로 100점 만점으로 환산하였다.
이렇게 구한 각 앱의 Score가 카테고리별 평균 Score보다 높다면, 해당 앱은 ‘잠재력이 있다’고 결론을 내렸다.

 

이렇게 분석 과정을 거쳐 최종적으로 완성한 대시보드는 다음과 같다.

 

 

 

 

 


 

 

소감 및 정리

발표 준비를 하면서 목적성과 그에 적합한 '잠재력'이라는 키워드를 뽑아낸 것은 좋았지만, 전체적인 구성이 이전 프로젝트들과 많이 겹친다는 느낌을 받았다. 그리고 데이터의 신뢰성에 주목하다보니 이용할 수 있는 자료의 수도 적어져서 살짝 아쉬움이 남았다. 하지만 최종 프로젝트에서는 실무 데이터를 다뤄볼 수 있는 만큼, 데이터가 부족해서 다양한 분석을 시도해보지 못하는 일은 없을 것이라고 생각한다. 이번에 펼치지 못했던 아이디어를 최종 프로젝트에서는 다양하게 제안할 수 있도록 노력해야겠다!