분석하고싶은코코

모바일 4가지 게임 리뷰 토픽 모델링 분석(2) 본문

머신러닝&딥러닝/NLP

모바일 4가지 게임 리뷰 토픽 모델링 분석(2)

코코로코코 2023. 10. 11. 02:32
반응형

지난번 포스팅에 이어서 모델링에 대해서 포스팅을 해보겠습니다. 이번에 진행할 모델링은 LDA와 CTM에 대한 토픽 모델링을 진행한 결과에 대해서 포스팅하려 했는데 생각보다 내용이 길어져서 두 모델링을 나눠서 포스팅 하겠습니다. 이번에는 LDA를 통한 토픽 모델링에 대해서 포스팅해보겠습니다.

 

지난번 포스팅

https://coco0414.tistory.com/82

 

모바일 분재 대표 4게임 리뷰 토픽 모델링 분석(1)

블루아카이브, 니케, 원신, 붕괴:스타레일 4가지 게임에 대한 구글 스토어의 리뷰에 대한 토픽 모델링 분석에 대한 내용을 다뤄보겠습니다. 수집 데이터는 10월 3일까지의 리뷰를 수집하였습니다

coco0414.tistory.com


3) 모델링

토픽 모델링의 경우 4가지 모델을 사용하여 각각의 토픽 모델링을 진행하였습니다. 한국어에 대한 토픽 모델링에 초점을 맞춘 모델들이 아니었기 때문에 추가적으로 KoNLPy의 Mecab, Okt 모듈을 사용하여 토큰화에 사용하였습니다. 각각의 모델에 대한 설명은 포스팅한 글들이 있으니 확인해보시면 될 것 같습니다. 또한 코드는 포스팅이 너무 길어져서 모델링 자세한 코드는 깃헙을 참고해주시면 됩니다.

 

3-1) LDA

LDA에 대해서 지난번에 포스팅한 내용이 있으니 해당 알고리즘에 대해서 궁금하신 분은 링크를 참고해주세요.

 

LDA 토픽 모델링의 경우 다음과 같이 3가지 기준으로 분류하여 진행하였습니다. 리뷰의 총 토픽수는 30개로  설정하고 각 토픽마다 점수가 높은 5개의 키워드들을 뽑아 봤습니다.

  • 4개 게임의 모든 리뷰 데이터
  • 게임별 리뷰 데이터
  • 게임별 별점을 통한 긍정(4,5점) / 부정(1,2점) 데이터

 

우선 게임 전체에 대한 데이터를 보겠습니다.

 

3-1_1) 게임 전체 데이터

 

우선 Mecab을 통한 LDA 토픽 모델링 결과에 대해서 확인해보겠습니다. 30개를 전부 보기에는 사진이 너무 길어서 20개의 토픽들을 확인하보겠습니다. 토픽 3번은 긍정적인 리뷰에 관련 토픽들로 보입니다. 15번과 같이 부정적인 토픽들이 눈에 보입니다. 또 다른 토픽으로는 모바일 게임 특성상 가챠(뽑기)가 없을 수 없기 때문에 토픽 7번과 같은 확률, 이상, 조작과 같은 키워드들이 포함된 토픽들이 눈에 보입니다. 

LDA - Mecab

 

다음은 Okt를 통한 LDA 토픽 모델링입니다. 위에서 Mecab에 비해서 모바일 게임에 맞는 키워드들의 토픽 모델링이 된 것처럼 보입니다. 역시 긍정, 부정에 관현 토픽들도 눈에 보이고 역시 확률에 대한 뽑기 토픽도 눈에 들어옵니다. 또한 최근 이슈가 있었던 번역 문제에 관한 토픽도 모델링 된 것이 눈에 띕니다. 아마 특정 게임이겠죠? 해당 데이터는 4개 게임 전체 리뷰 데이터이기에 공통된 토픽들에 대한 모델링 과정이 있었다고 보시면 될 것 같습니다. 이를 통해서 알 수 있었던것은 리뷰에 유저들은 스토리, 그래픽에 대한 긍정적인 리뷰를 남기는 것으로 보이고 부정적 리뷰에는 특정 이슈에 대한 불만을 많이 달거나, 오류, 컨텐츠의 보상과 같은 인게임 불만에 대해서 남기는 것으로 보입니다. 그리고 두 형태소 분석기를 통한  공통된 이슈인 가챠(뽑기)는 모든 게임에서 존재하기에 공통 토픽으로 적합하다고 보입니다.

 

개인적인 평가로는 리뷰 데이터를 토큰화하거나 명사를 추출하는 과정에서 보다 적합한 형태소 분석기는 Mecab 보다는 Okt라고 보입니다. 

LDA - Okt

 

3-1_2) 게임별 리뷰 데이터

게임별 리뷰에서는 모든 토픽을 가져오지 않고 LDA를 통해 나온 토픽중 점수가 가장 높은 키워드에 점수가 일정 이하라면 제외하고 결과를 가져왔습니다. 

 

블루아카이브

Mecab과 Okt두 형태소 분석기 모두 공통적으로 보이는 부분은 검열에 대한 리뷰가 굉장히 높은 점수를 받은 토픽들을 받은게 눈에 보입니다. 아무래도 블루아카이브는 검열과 관련 이슈가 있었기 때문에 해당 키워드로 리뷰가 많이 달려있었기 때문에 다양한 토픽들에 검열이라는 단어가 위치해 있다는 것으로 유추해볼 수 있습니다. 그렇지만 그 외에 토픽에 대한 키워드들을 유추하기에는 조금 난해한 부분이 있는게 눈에 보입니다.

블루아카이브 LDA - Mecab
블루아카이브 LDA - Okt

 

니케

니케에서는 두 형태소 분석기를 통해서 확인한 토픽에서 확인할 수 있는 공통적인 키워드는 게임패드였습니다. 아무래도 니케라는 모바일 게임이 처음 나왔을때 전투 진행하는데 컨트롤하는 게임패드가 불편한 부분이 있어서 해당 키워드들이 다양한 토픽에 존재하는 것으로 보입니다. 리세라마라는 모바일 게임 특성이 있는데 이와 관련된 특정 캐릭터 이름이나 탈퇴, 게스트와 같은 키워드들도 눈에 보입니다. 하지만  블루아카이브에서 확인했듯이 뭔가 명확한 토픽이라고 단정짓기에는 어려움을 확인하였습니다. 

니케 LDA - Mecab
니케 LDA - Okt

 

원신

원신의 경우 앞 서 두 게임 리뷰들과 다르게 어느정도 토픽이 눈에 보이는게 있습니다. 그 이유는 4개의 게임중에서 가장 많은 리뷰를 갖고있는 게임이기 때문입니다. 그래서 두 형태소 분석기가 조금은 다른 키워드들을 뽑아내기는 했지만 어느정도 비슷한 키워드들도 눈에 보입니다. 좀 특이한 점은 인게임에서 발생하는 가챠(뽑기)와 관련된 캐릭터나 돌파와 같은 키워드들이 좀 많이 존재하고 있는게 눈에 보입니다. 그리고 원신의 경우 모바일에서도 즐기지만 PC를 통해서 즐기는 게임이다보니 게임패드와 관련된 키워드도 눈에 띄는 모습을 볼 수 있습니다.

원신 LDA - Mecab
원신 LDA - Okt

 

붕괴:스타레일

붕괴 스타레일의 경우에는 확실히 위 3개에 비해서 토픽의 대표 단어들이 좀 낮은 점수를 받았는데 출시가 가장 최신이고 리뷰수가 가장 적기 때문입니다.  그래서 특정 토픽이라고 단정짓기는 어려웠습니다. 그럼에도 긍정과 부정으로 보이는 키워드들이 눈에 보이는 것을 확인할 수 있었고 Mecab의 첫 토픽에는 복구나 개선과 같은 키워드들이 보이는 것으로 보아 출시한지 얼마 되지 않아서 해당 토픽이 존재하는 것으로 유추됩니다. 하지만 해당 모델링을 통해서 그 이상의 토픽들을 찾아내기에는 좀 어려워 보였습니다.

붕괴 스타레일 LDA - Mecab
붕괴 스타레일 LDA - Okt

 

3-1_3) 게임의 긍/부정 데이터

앞서 이야기 했듯 리뷰에는 평점이 존재하기 때문에 4,5점에 대한 리뷰는 긍정, 1,2점에 대한 리뷰는 부정으로 분류하여 LDA를 진행해보았습니다.

 

블루아카이브

긍정

우선 긍 리뷰들에 대한 LDA 토픽 모델링입니다. 4,5점으로 데이터를 또 분류를 하다보니 데이터 수가 적어졌습니다. 그래서 LDA를 통한 토픽 모델링이 명확하게 분류되었다고 보기 어려운 결과를 받을 수 있었습니다. 그런데 좀 의외였던 점은 4,5점에 대한 토픽 모델링임에도 생각보다 부정적인 키워드들이 많이 보인다는 것이었습니다. 게임 자체에 대해서 재미있게 즑기고 있어 별점을 높게 주지만 리뷰에는 불만을 작성하는 리뷰들이 어느정도 존재하는 것으로 유추해볼 수 있었습니다.

블루아카이브 긍정 LDA - Mecab
블루아카이브 긍정 LDA - Okt

 

부정

부정 리뷰의 경우 게임 내적, 외적인 이슈들로 보이는 키워드들이 눈에 띄는게 보였습니다. LDA를 통해서 게임 외적인 토픽이 새롭게 등장한 부분이 눈에 띄었습니다.

블루아카이브 부정 LDA - Mecab
블루아카이브 부정 LDA - Okt

 

 

 

니케

 

긍정

앞서 확인해본 블루아카이브와 조금은 다른 결과를 확인해볼 수 있었습니다. 니케 매출 파이가 일본에서 큰 만큼 일본에 관련된 키워드도 눈에 보입니다. 그렇지만 블루아카이브의 결과와 동일하게 리뷰 데이터를 분류해서 절대적인 량이 줄어 명확한 토픽을 알아보기는 힘든 부분이 존재함을 확인할 수 있었습니다.

니케 긍정 LDA

 

부정

부정 리뷰에서는 전체 리뷰에서 확인한 게임패드에 관련된 내용이 눈에 띄는 것을 확인할 수 있었습니다. 또한 게스트라는 키워드가 많이 등장하는데 이는 리세라마와 관련된 키워드가 부정적 리뷰 상당 부분을 차지하고 있음을 확인할 수 있었습니다. 

니케 부정 LDA

 

원신

긍정

원신의 경우에는 긍정과 부정으로 분류하더라도 데이터량이 다른 게임의 리뷰보다 많았기 때문에 조금 더 잘 작동한 것으로 보입니다. 긍정적인 리뷰에 게임 외적인 이슈를 아쉬워 하는 토픽이나 키워드들이 존재하는 것이 보입니다.

원신 긍정 LDA

부정

부정 리뷰의 토픽의 경우 인게임적 요소가 오히려 많이 존재하는게 눈에 보입니다. 아무래도 4개 게임중에서 가장 오래 서비스된 게임이기도하고 플레이하는 방식이 여러가지라는 점에서 복합적인 키워드들이 존재하는 것을 확인할 수 있었습니다. 이런 부분에서 4개 게임 중에서 조금은 다른 카테고리로 봐야할 여지를 확인할 수 있었습니다.

원신 부정 LDA

 

붕괴 스타레일

 

긍정

긍정 리뷰에 캐릭터에 대한 이름이 눈에 띕니다. 반면 게임사가 중국이다 보니 중국과 관련된 부정적인 키워드들도 눈에 보이는 것이 원신과 다른점이라고 할 수 있습니다. 반면 타 게임에 대한 언급도 있는 것이 다른 게임의 긍정적 리뷰와 다른점이라고 할 수 있을 것 같습니다.

붕괴 스타레일 긍정 LDA

 

 

부정

가장 최근에 출시한 게임임에도 복귀라는 키워드가 많이 보이는데 이전에 있었던 붕괴를 플레이하던 유저들이 복귀하면서 남긴 댓글로 보입니다. 그런데 이 키워드가 점수가 낮은 부정 댓글에 많은 것으로 보아 기존에 붕괴를 플레이하던 유저들이 스타레일을 플레이하는데 만족감을 느끼지 못한 것으로 보입니다.

붕괴 스타레일 부정 LDA

 


LDA 결론

블루아카이브 :  전체 리뷰에서는 검열에 관련 이슈가 있었기 때문에 해당 키워드가 눈에 띄는 모습을 확인할 수 있었습니다. 세부적으로 긍정에 대한 리뷰에서는 점수는 높게 주었지만 아쉬운점이나 불만사항들을 추가적으로 더 작성하는 이용자들이 많아 보인다고 유추해볼 수 있는 결과가 나왔었습니다. 부정 리뷰에서는 검열에 관련 문제도 있지만 내적, 외적 모두 포함된 키워드, 토픽들이 보이는 결과를 확인할 수 있었습니다.

 

니케 : 전체 리뷰에서 확인해 볼 수 있는 키워드는 게임패드와 리세라마와 관련된 키워드들이 눈에 띄었습니다. 이후 긍정과 부정을 분류하여 확인해본 결과 긍정에서는 일본과 관련된 키워드가 눈에 보였고 부정 리뷰에서는 앞서 확인한 게임패드와 리세라마와 관련된 키워드들이 눈에 보였습니다. 실제로 크지는 않지만 니케의 경우 긍정보다는 부정으로 분류된 리뷰가 조금 더 많았기 때문에 전체 리뷰 토픽에서 나온 게임패드와 리세라마 관련 키워들이 눈에 많이 띄었던 것 같습니다.

 

원신 : 원신의 경우 데이터량이 월등하게 높은 데이터였습니다. 전체 데이터에서는 가챠(뽑기)와 캐릭터, 캐릭터의 성장과 관련된 키워드들이 다른 리뷰 데이터들과 조금 다른 키워드, 토픽들을 보여주었습니다. 긍정 데이터의 경우 블루아캉이브와 동일하게 높은 별점을 주었지만 아쉬운점들을 남기는 리뷰들이 존재하는 것을 유추할 수 있었습니다. 부정 리뷰의 경우 여러 가지 키워드들이 눈에 띄었지만 한국 게임사가 아니다보니 중국과 관련된 키워드들이 많이 존재하는 것이 다른 토픽의 키워드들과 다른점이라고 할 수 있었습니다.

 

붕괴-스타레일 : 가장 최근에 출시한 게임으로 리뷰수가 가장 적은 게임이었습니다. 전체 리뷰에서는 신규 게임에 존재하지 않을 복귀라는 키워드가 눈에 띄었습니다. 이외에는 확실하게 긍정과 부정으로 볼 수 있는 키워드들이 존재하는 모습을 확인할 수 있었습니다. 긍정 리뷰들에서는 게임 내 캐릭터들의 이름이 많은 것으 다른 게임 리뷰들과의 다른점이라고 할 수 있었습니다. 그리고 원신과 동일한 게임사임에도 긍정 리뷰에서 중국과 관련된 부정적인 토픽으로 보이는 결과도 확인할 수 있었습니다. 부정 리뷰에서 복귀라는 키워드가 많이 등장한  이유를 알 수 있었습니다. 복귀와 관련하여 부정적인 리뷰들이 많은 것으로 보였는데 이는 이전에 붕괴를 플레이하던 유저들이 스타레일을 통해 복귀하였는데 만족하지 못한 리뷰들이 많은 것으로 유추할 수 있었습니다. 복귀와 요즘이라는 키워드가 붙어있는 것으로 보아 아마 요즘 트렌드와 관련된 토픽이지 않았을까 유추할 수 있었습니다. 그렇지만 데이터가 많지 않고 제대로된 토픽 분류가 되지 않았을 수 있다는 점에서 단정 짓기는 어려웠습니다.

 

 

LDA 토픽 모델링 평가

LDA를 통한 토픽 모델링은 현제 제가 사용하는 데이터에는 조금 부적합한 느낌을 받는 방법이었습니다. 전체 데이터에 대해서는 가챠와 관련된 토픽만 확인할 수 있었습니다. 각 게임별로 분류하여 모델링한 결과에서는 원신을 제외하고는 조금씩은 부족한 모습을 보여주었고 원신도 명확하게 토픽을 확인할 정도의 토픽 모델링이 되지 않았었습니다. 이 문제는 모델이 분류한 토픽이 너무 적거나 많은 경우에 발생할 수 있지만 포스팅한 내용에는 없지만 토픽을 10개, 50개로도 진행했을때 역시 결과는 크게 다른 부분이 없었습니다. 

 

LDA를 통한 토픽 모델링에서 또 확인할 수 있었던 점은 Mecab과 Okt 두 형태소 분석기에 따라 키워드 분리가 다르게 되고 있었고 그로인한 토픽 모델링의 결과가 달라지는 모습을 확인할 수 있었습니다. 저는 이번 프로젝트에서는 Mecab보다는 Okt가 더 적합하다고 보였습니다. 그리고 LDA를 통한 토픽 모델링을 위해서는 적어도 2만개의 데이터가 있어야 하지 않을까라는 점도 느낄 수 있었습니다. 이후 다른 토픽 모델링의 결과를 확인해보고 LDA의 결과와 비교해보겠습니다. 

 

 

반응형