일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 원신
- Optimizer
- Tableu
- 피파온라인 API
- CTM
- 코사인 유사도
- 조축회
- NLP
- 토픽 모델링
- BERTopic
- 문맥을 반영한 토픽모델링
- 다항분포
- 포아송분포
- 데이터넥스트레벨챌린지
- KeyBert
- 데이터리안
- 블루 아카이브
- 트위치
- LDA
- 개체명 인식
- 옵티마이저
- 붕괴 스타레일
- 데벨챌
- 구글 스토어 리뷰
- Roberta
- SBERT
- 블루아카이브 토픽모델링
- 클래스 분류
- 자연어 모델
- geocoding
- Today
- Total
분석하고싶은코코
모바일 4가지 게임 리뷰 토픽 모델링 분석(4) 본문
이번에는 지난 포스팅에 이어서 KeyBert를 통한 토픽 모델링 결과에 대해서 포스팅 해보겠습니다. KeyBert의 경우 커널 문제로 인해서 정확한 모델링이 어려워 데이터를 축소하여 진행한 점도 있고 해당 알고리즘을 통해 나온 결과들에 대해서 가장 떨어지는 토픽 모델링이라 생각되어 가볍게 다루었습니다.
지난 포스팅
1) 데이터 수집, 전처리 - https://coco0414.tistory.com/82
2) LDA 토픽 모델링 - https://coco0414.tistory.com/83
3) CTM 토픽 모델링 - https://coco0414.tistory.com/84
3-3) KeyBert
KeyBert에 관한 내용이 궁금하다면 링크를 참고해주세요. 결과에 대해서 해석은 KeyBert의 결과를 도출하는 방법에 대해서 이해가 필요한 부분이니 꼭 링크를 읽어주세요!! KeyBert를 직접 구현하다보니 커널이 뻣는 현상이 지속적으로 발생하여 이부분에 대한 처리를 위해 모든 게임의 리뷰 6,000개를 랜덤 샘플링하여 데이터수를 축소하여 진행하였습니다. 그래서 해당 토픽 모델링의 신뢰성이 다른 토픽 모델링에 비해 다소 떨어지는 경향이 있습니다.
KeyBert의 경우 모듈에서 지원하는 3가지 방법에 대해서 직접 구현한 코드를 작성하여서 진행했습니다. 해당 모듈이 한국어에 맞추어 제작된 것이 아니고 이는 한국어에 대한 자연어처리에 적합하지 않은 토큰화 방식을 갖고 있기 때문에 따로 작성하여 진행하였습니다. 자세한 내용은 위 링크를 통해서 확인가능합니다. 우선 KeyBert의 경우 다양한 토픽을 나타내기 보다 대표적인 토픽의 키워드 조합을 뽑아내는 방식으로 다른 모델링 방법보다 조금은 양이 적습니다. 그 이유는 KeyBert의 토픽 후보군 설정 하는 방법이 다른 모델링과 다른 n-gram을 이용한 토픽을 추출하기 때문입니다. 이번에 저는 tri-gram을 사용하여 토픽을 추출하였습니다. 이 n-gram은 사용자가 설정한 토픽수만큼 문서안에서 n-gram에맞는 토픽들을 문서에서 생성해내고 이게 문서에서 얼마나 대표할 수 있는지를 나타내는 토픽 모델링 방법입니다.
- 블루 아카이브
전체 리뷰 토픽
전체 리뷰를 하나의 문서로 보았을때 이를 대표하는 Tri-gram 단어 조합은 다음과 같습니다. 앞에서 확인한 토픽 모델링과 확실히 다른 결과들의 단어 조합을 확인하실 수 있습니다. 전체 리뷰를 하나의 문서로 보고 단어의 조합을 찾았는데 생각보다 긍정과 부정 키워드들이 골고루 등장하는 모습이 인상적입니다. 주요 키워드로 '재미'를 뽑을 수 있고 이는 긍정과 부정적 단어 조합에 모두 등장하는 모습을 확인할 수 있었습니다.
긍/부정 리뷰 토픽
긍정
긍정 리뷰 토픽 모델링의 키워드를 보면 블루 아카이브는 이전 토픽 모델링에서도 등장했듯 스토리에 대한 만족도가 굉장히 높아 보이는 리뷰들이 많아보입니다. MMR을 통한 토픽 모델링에서는 긍정적 리뷰이지만 내외국에 대한 차별 토픽도 눈에 보입니다. 그 외는 인게임적 이슈들로 보이는 키워드 조합들이 존재하는 것을 확인할 수 있었습니다.
부정
부정 키워드에서는 검열에 관련된 이슈가 눈에 보입니다. 그런데 나머지 키워드 조합에서는 단순히 불만을 작성한 글에 포함될 수 있는 키워드들이 많습니다. 그래서 특정 토픽을 꼽기에는 어려워보입니다. 그런면에서 MMR을 통해 나온 결과에서는 다양한 토픽들이 나온것을 확인할 수 있었습니다.
- 니케
전체 리뷰 토픽
니케의 전체 리뷰의 경우 지금까지와는 너무 다른 토픽들이 등장한 모습을 볼 수 있습니다. 이 부분은 샘플링 과정에서 제대로 된 샘플링이 되지 않았을 이유도 고려해볼 수 있습니다. 대부분의 토픽이 부정적 토픽들로 보입니다.
긍/부정 토픽
긍정
긍정 리뷰에 대한 토픽 모델링 결과를 보니 전체에서 보지 못했던 키워드들이 눈에 들어옵니다. 긍정 리뷰에서는 스토리에 대한 만족감을 표현하는 토픽들이 많아보입니다. 그런데 긍정 리뷰임에도 과금과 관련된 이야기가 많은 것 역시 특이한 점이라 할 수 있겠습니다.
부정
부정 리뷰에서는 이전 모델링 결과와 다른 토픽들이 눈에 보입니다. 게임 자체에 대한 거부감을 들어내는 키워드 조합이 보이고 게임 내 경쟁 컨텐츠에 대한 불만을 보이는 키워드 조합도 보입니다.
- 원신
전체 리뷰 토픽
전체 리뷰에 대한 토픽인만큼 다양한 토픽들로 보이는 키워드 조합들이 보입니다. 그런데 앞서 진행항 CTM에 비해서 명확해보이는 키워드 조합들이 보이지는 않습니다. 아무래도 원신 리뷰의 경우 원 데이터가 추출한 샘플의 6배 가량 되는 데이터라 손실이 많아서 대표하는 리뷰로 보기에는 조금 무리가 있어서 일 수도 있겠습니다.
긍/부정 토픽
긍정
긍정 리뷰에 대한 토픽 모델링의 경우 전체와 조금 유사해보입니다. 그래도 나머지 키워드 조합들이 전체와 달리 긍정적인 리뷰에 있을 수 있는 대표 단어 조합으로 나온 모습을 볼 수 있습니다. 인생, 게임과 같이 긍정적 리뷰에 등장할 수 있는 단어들이 여러군데 보입니다.
부정
부정 리뷰에 대한 토픽 모델링에서는 새롭게 보이는 키워드들이 중국이 아닌 다른 국가들이 등장한다거나 해킹과 관련된 이야기가 토픽으로 나온것을 확인할 수 있습니다. 샘플링을 했음에도 표절에 대한 부정 리뷰 토픽이 존재하는 것도 재미있는 부분중 하나로 보입니다.
- 붕괴 스타레일
전체 리뷰 토픽
전체 리뷰 토픽 모델링에서 확인해볼 수 있는 키워드 조합들은 역시 번역에 관련된 키워드는 이번에도 등장했습니다. 그외에는 스토리 난이도에 대한 이야기가 새롭게 나온게 보입니다. 스타레일의 경우 가장 데이터수가 적고 샘플수와 전체 데이터수가 유사하다는 점에서 가장 전체 데이터에 대한 토픽 모델링과 가장 가까운 데이터라 할 수 있습니다.
긍/부정 토픽
긍정
스타레일의 긍정 리뷰에 대한 KeyBert는 특이하게 지금까지의 모델링에서 보이지 않던 아쉬운점들에 대한 키워드 조합들이 새롭게 나타난것이 보입니다. 불편이나 질림이 주요 키워드로 볼 수 있겠습니다.
부정
부정 리뷰에는 역시 번역에 관련된 토픽이 가장 큰 토픽으로 보였습니다. 그 외에도 새롭게 등장한 토픽으로는 게임내 동성애 요소가 존재하는 것으로 보이고 이를 부정적으로 받아들인 유저가 있는 것으로 보입니다. 그런데 의외인점은 부정 리뷰임에도 스토리는 칭찬하고 있는 모습이 조금은 눈에 띕니다.
KeyBert 결론
KeyBert에서는 게임별 모델링에 대한 이야기를 따로 하지 않겠습니다. 이번 프로젝트에서 KeyBert의 모델링으로 나온 결과들에 대해서 큰 무게를 두지 않으려 하기 때문도 있습니다. 그 이유는 커널 문제로 인해 전체 데이터에 대해서 모델링을 진행하지 못한 점도 있지만 KeyBert의 토픽 모델링 방법은 코사인 유사도, MSS, MMR 방법들이 각각 극단적인 토픽들을 뽑아낸다는 점에서 비중을 두지 않으려 합니다. 그렇지만 이전에 진행했던 모델링에서 나오지 않았던 키워드들이 등장한 점은 그냥 지나치지 않고 확인해볼 필요가 있는 부분이라고 생각하였습니다.
'머신러닝&딥러닝 > NLP' 카테고리의 다른 글
모바일 4가지 게임 리뷰 토픽 모델링 분석(6) (0) | 2023.10.12 |
---|---|
모바일 4가지 게임 리뷰 토픽 모델링 분석(5) (2) | 2023.10.12 |
모바일 4가지 게임 리뷰 토픽 모델링 분석(2) (0) | 2023.10.11 |
모바일 4가지 게임 리뷰 토픽 모델링 분석(1) (0) | 2023.10.10 |
NLP - 버토픽(BERTopic) (1) | 2023.10.10 |