| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 블루아카이브 토픽모델링
- 다항분포
- NLP
- 원신
- SBERT
- 토픽 모델링
- 옵티마이저
- 자연어 모델
- 클래스 분류
- 조축회
- Tableu
- 구글 스토어 리뷰
- BERTopic
- 붕괴 스타레일
- LDA
- 코사인 유사도
- Optimizer
- 블루 아카이브
- Roberta
- CTM
- 피파온라인 API
- 데이터리안
- 데이터넥스트레벨챌린지
- 트위치
- 개체명 인식
- KeyBert
- 포아송분포
- geocoding
- 문맥을 반영한 토픽모델링
- 데벨챌
- Today
- Total
분석하고싶은코코
모바일 4가지 게임 리뷰 토픽 모델링 분석(5) 본문
이번에는 지난 포스팅에 이어서 BERTopic 토픽 모델링을 포스팅 해보겠습니다.
지난 포스팅
1) 데이터 수집, 전처리 - https://coco0414.tistory.com/82
2) LDA 토픽 모델링 - https://coco0414.tistory.com/83
3) CTM 토픽 모델링 - https://coco0414.tistory.com/84
4) KeyBert 토픽 모델링 - https://coco0414.tistory.com/85
3-4) BERTopic
BERTopic에 대한 내용이 궁금하시면 링크를 클릭해주세요. BERTopic은 다양한 시각화 방법을 제공해줍니다. 토픽에 대한 다양한 시각화 방법은 링크에서 실행한 결과가 있으니 필요하시면 확인하시면 됩니다!
이번 포스팅에서는 BERTopic을 통한 다양한 시각화에 목표가 아니기 때문에 모델링을 통해 나온 토픽, 키워드들에 대해서 다루겠습니다. 모델링을 통해 나온 결과에 대한 시각화는 직접 코드를 실행하여 확인해보시는걸 추천드립니다. 이전에 CTM에서 토픽 모델링이 잘 됐다고 생각했는데 BERTopic이 좀 더 잘 분류됐다는 느낌이 개인적으로 들었습니다. 그 내용들을 하나씩 살펴보겠습니다.
블루 아카이브
- 전체 리뷰
가장 토픽 분류가 잘 되었다고 해도 될 정도의 결과를 얻을 수 있었습니다. 확실히 전체 리뷰에 대해서는 긍정과 부정에 대한 토픽들이 많이 보이고 이전 모델링 과정에서 확인했던 김용하 디렉터에 관한 칭찬 관련 리뷰들이 있는것으로 확인됩니다. 긍정과 부정으로 분류했을때 결과가 궁금해지는 결과였습니다.

- 긍/부정 리뷰
긍정
긍정 리뷰의 토픽 모델링에서는 다른 모데링에서 봤던 토픽들이 등장하는 것을 볼 수 있습니다. 그런데 다른점은 게임에 대한 칭찬이 다수 포진되어 있는 것을 알 수 있습니다. 50개의 토픽중 20개의 토픽만 봤기 때문에도 있긴합니다. 실제로 50개에 대한 토픽으로 분류를 진행했고 그림에 포함되지 않은 토픽들을 직접 확인해봤는데 대부분 긍정이긴했지만 아쉬움, 개선점에 대한 토픽이 포함되어 있는 것을 확인할 수 있었습니다. 이런 부분에서 보면 토픽이 잘 분류되었다고 볼 수 있었습니다.

부정
부정의 경우 특이한 경우가 발생했습니다. 토픽 모델링은 총 50개에 대한 토픽 모델링을 진행하였는데 BERTopic 자체에서 9개에 대한 토픽으로 축소시켜 결과를 보여주었습니다. 즉, 블루 아카이브를 경험한 유저중 낮은 점수를 주는 유저의 경우 비슷한 불만사항을 겪고 있다고 할 수 있겠습니다. 그 토픽들에 대해서 살펴보면 발열, 로딩, 가챠(뽑기), 핵 4가지에 대한 토픽들이 있음을 확인할 수 있었습니다.

니케
- 전체 리뷰
니케의 전체 리뷰경우 긍정과 부정적 리뷰 모두 보이는 것을 확인할 수 있습니다. 새로 보이는 키워드도 보이는게 발적화로 보이는 키워드가 존재하는 토픽이 존재한다는 것입니다. 니케의 경우 리뷰에 최적화 문제를 남기는 리뷰들도 토픽으로 잡을 수 있다라고 BERTopic이 이야기하고 있습니다. 이를 긍/부정으로 자세히 들여다 보겠습니다.

- 긍/부정 리뷰
긍정
긍정 리뷰에서는 전체적으로 긍정적인 키워드들이 눈에 많이 보입니다. 그런데 오류 키워드가 종종 등장하는 것으로 보아 게임 플레이에 만족하지만 오류에 대한 문제점을 개선했으면 하는 것으로 보입니다. 또, 기대감이라는 긍정적인 키워드가 새로 등장한 것도 눈에 띕니다.

부정
부정리뷰의 경우 앞에서 확인했던 모든 토픽들이 다 포함되어 있는 것을 확인할 수 있습니다. 오류나 로딩에 관련된 키워드도 나오고 있고 쿠폰이 선착순이라는 토픽도 보입니다. 의외인 점은 게스트라는 키워드가 앞선 모델링에서는 나왔었는데 이번에는 보이지 않지만 계정에 관련된 키워드들이 눈에 보이는 것도 다른점이라 할 수 있습니다.

원신
- 전체 리뷰
원신은 리뷰수가 다른 게임들의 리뷰보다 압도적으로 많아서 그런지 토픽들이 뭘 이야기하고 있는지 확실해보이는것 뿐 아니라 다양한 토픽들이 존재하는 결과를 확인할 수 있습니다. 스토리, 과금요소, 인게임 캐릭터, 중국 등 다양한 토픽들을 전체 리뷰 데이터에서 확인할 수 있었습니다.

- 긍/부정 리뷰
긍정
원신의 긍정 리뷰 토픽모델링의 경우 새로운 키워드들이 나오는 모습을 확인해볼 수 있습니다. 자유도에 대한 언급도 있고 힐링이라는 키워드도 등장합니다. 그리고 다른 토픽 모델링과 다른점은 인게임 캐릭터 이름의 토픽 분류가 생각보다 많은 것이 눈에 띄는 부분중 하나입니다.

부정
부정 토픽의 경우 다른 모델링에서 보였던 저장 공간 관련, 백도어, 해킹, 젤다 표절에 대한 리뷰들이 어김없이 등장하였습니다. 인게임적 불만보다는 중국 게임사로 인해서 중국에 대한 비난으로 보이는 토픽들이 많이 나온 것을 확인할 수 있었습니다. 아마도 비난의 방식이 달라서 여러가지 토픽으로 나눠지지 않았나 유추해볼 수 있었습니다.

붕괴 스타레일
- 전체 리뷰
붕괴: 스타레일의 경우 역시 가장 많이 보이는 토픽 키워드는 번역, 오역에 관련된 토픽들입니다. 그 외에는 스토리, 재미와 관련된 키워드들이 많이 보입니다. 아무래도 최근 출시한 게임인데 큰 이슈가 있어서 게임 리뷰에 큰 영향을 준 것으로 보입니다. 그럼에도 게임 자체는 재미있다는 토픽들이 곳곳에 보입니다. 긍정과 부정 세부 분류를 통해서 자세히 알아보겠습니다.

- 긍/부정 리뷰
긍정
긍정 리뷰의 토픽 모델링을 보면 번역, 오역에 대한 이슈가 사라지지 않는 모습이지만 해당 이슈에 대한 아쉬움을 들어내고 잘 해결되길 바란다는 키워드들이 보이는것이 인상적입니다. 그외에는 스토리와 관련하여 긍정적인 것으로 보입니다. 또한, 원신과 같은 개발사여서 그런지 전체에서 보이던 원신 키워드가 긍정에서도 보이는 것을 확인할 수 있었습니다. 그리고 다른 게임과 다른 턴제 게임에 대한 토픽도 분류 됐음을 확인할 수 있었습니다.

부정
부정 리뷰 토픽에서는 확실히 번역에 대한 유저들의 불만이 많은게 보입니다. 좀 자세한 키워드로 보면 한국어로 번역의 퀄리티가 좋지 못한 것으로 보입니다. 그외 스마트폰에서 접속에 대한 오류만 보이긴합니다. 모바일로 접근이 가능한 게임임에도 가챠(뽑기)에 대한 언급은 잘 없고 번역에 대한 토픽이 주류인것으로 보아 해당 이슈가 게이머들에게 얼마나 큰 반감을 산 것인지 알 수 있었습니다.

BERTopic 결론
블루 아카이브 : 블루 아카이브는 이전에 확인했던 모델링의 키워드들이 다수 등장하였습니다. 버토픽 모델링에서 특이한 점은 김용하 디렉터에 대한 칭찬에 대한 토픽들이 많이 보이는 것이 인상적이었습니다. 긍정적인 리뷰에서는 스토리, 컨텐츠, 그래픽 등 게임의 다양한 요소에 대해서 칭찬하는 토픽이 잘 분류된 결과를 확인할 수 있었습니다. 반면 부정적 리뷰에서 확인할 수 있었던 점은 특이하게 토픽이 9개로 축소되어 결과를 나왔다는 점입니다. 아무래도 블루 아카이브를 플레이 한 유저들의 불만은 비슷한 것으로 유추할 수 있었습니다. 그 토픽으로는 4가지가 있었는데 '발열, 로딩, 가챠(뽑기), 핵'으로 다시 축소해볼 수 있었습니다.
니케 : 니케에서도 이전 모델링에서 확인했던 키워드들이 똑같이 등장하는 모습을 볼 수 있었는데 추가적으로 부정적 키워드에 최적화와 관련된 토픽과 키워드들이 등장하는 모습을 볼 수 있었습니다. 블루 아카이브와 다른점이라면 긍정적 리뷰에 아쉬운점이나 불만사항을 포함하여 작성하는 리뷰들이 많다는 점이었습니다. 그리고 부정적 리뷰에 버토픽에서는 디렉터에 대한 이야기가 보이지 않았습니다. 오히려 가챠(뽑기)에 대한 불만을 포함한 토픽들이 많이 존재하는 것을 확인해 볼 수 있었습니다.
원신 : 원신의 경우 리뷰수가 약 4만개로 가장 많은 리뷰를 갖고 있어서 토픽 분류가 좀 더 세세하게 잘 된 것을 확인할 수 있었습니다. 인게임 캐릭터에 대한 토픽들이 많이 보였습니다. 부정 리뷰에서는 어김없이 젤다 표절과 관련해서 등장했지만 그외는 중국에 대한 비난 토픽들이 많았습니다. 긍정 토픽에서는 이전 모델링에서 보이지 않았던 힐링, 자유도와 관련도니 키워드가 등장했는데 이는 젤다의 전설과 관련된 키워드로도 볼 수 있어서 젤다와 비슷한 느낌이 있지만 원신에서 그 느낌을 잘 살린 것으로도 해석할 수 있겠습니다. 그리고 블루 아카이브와 니케와 다른점은 가챠(뽑기)에 대한 토픽이 생각보다 없다는 점이 특이한 점이라고 할 수 있었습니다. 앞서 진행한 모델링에서 원신은 붕괴 스타레일과 하나의 그룹으로 비교를 언급했는데 해당 방법에 힘을 좀 더 실리는 것을 느낄 수 있었습니다.
붕괴 스타레일 : 붕괴 스타레일의 경우 가장 최근에 출시한 게임인데 번역, 오역이라는 큰 이슈를 겪어서 그런지 해당 이슈에 대한 토픽이 가장 많이 등장했습니다. 긍정 리뷰를 작성한 경우 해당 이슈에 대한 아쉬움과 잘 해결 되길 바라는 키워드들이 등장한 반면 부정 리뷰에서는 해당 이슈에 대한 비난 토픽이 대거 등장하였고 이를 중국, 번역업체 키워드까지 등장하는 토픽들을 확인할 수 있었습니다. 그리고 원신에서 언급했듯 가챠(뽑기)에 대한 이야기가 생각보다 적었는데 이는 번역 이슈에 가려졌을 수 있지만 해당 토픽 자체가 잘 등장하지 않는 부분은 원신과 한 그룹으로 묶어 비교하는데 근거가 될 수 있다고 보였습니다.
토픽 모델링을 시도한 4개의 모델중 가장 좋은 성능이라고 생각되는 결과를 받을 수 있었습니다. 전체적 리뷰에서도 확실한 토픽으로 볼 수 있는 키워드들로 분류된 모습을 확인할 수 있었습니다. 또한 긍정과 부정 세부 분류에서도 토픽에 대한 분류를 잘 해주었고 심지어 설정한 토픽으로 강제로 토픽을 늘리는것이 아니라 토픽을 줄일 수 있다면 모델 내에서 토픽을 줄여서 출력해주는 결과를 블루 아카이브 결과에서 확인할 수 있었습니다. 다만 CTM과 동일하게 GPU환경에서 진행해야 작업 속도가 빠르다는 점에서 자원적인 요소가 들어간다는 점을 고려하지 않을 수 없을 것 같습니다.
'머신러닝&딥러닝 > NLP' 카테고리의 다른 글
| NLP - 텍스트랭크(TextRank) (1) | 2023.10.16 |
|---|---|
| 모바일 4가지 게임 리뷰 토픽 모델링 분석(6) (0) | 2023.10.12 |
| 모바일 4가지 게임 리뷰 토픽 모델링 분석(4) (1) | 2023.10.12 |
| 모바일 4가지 게임 리뷰 토픽 모델링 분석(2) (0) | 2023.10.11 |
| 모바일 4가지 게임 리뷰 토픽 모델링 분석(1) (0) | 2023.10.10 |