일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 자연어 모델
- 토픽 모델링
- 문맥을 반영한 토픽모델링
- 원신
- 개체명 인식
- 블루 아카이브
- 데이터리안
- 다항분포
- NLP
- Tableu
- CTM
- 구글 스토어 리뷰
- LDA
- 데벨챌
- 포아송분포
- 블루아카이브 토픽모델링
- Roberta
- KeyBert
- 피파온라인 API
- Optimizer
- 조축회
- SBERT
- 데이터넥스트레벨챌린지
- 옵티마이저
- 트위치
- 붕괴 스타레일
- 코사인 유사도
- geocoding
- BERTopic
- 클래스 분류
- Today
- Total
목록전체 글 (108)
분석하고싶은코코
이번 포스팅에서는 PyTorch에 대한 High-level 인터페이스를 제공하는 오픈소스 Python 라이브러인 Lightning에 대해서 다뤄보려고 합니다. Lightning이 등장한 배경에 대해서 알아보고 직접 구현하는 작업까지 진행해보겠습니다. 구현은 KcELECTRA의 NCMC downstream task를 통해서 구현하고 이해해보는 과정을 진행할 것입니다. 실제로 KcELECTRA에서 downstream 예시코드에서도 사용되었고 다양한 한국어 자연어 모델의 Finetune코드에서 사용되고 있는 라이브러리 입니다. KcELECTRA 모델의 제작자분께서 공유해주신 Fine-tune 코드 링크입니다. https://colab.research.google.com/drive/11WQdZSf_1xIcRrc..

이번 포스팅에서는 STS, NLI라는 downstream작업을 직접 구현해봅니다. 한국어의 모델 성능을 평가에 사용하는 대표적인 데이터셋은 카카오 브레인에서 공개한 KorSTS/KorNLU와 KLUE 프로젝트에서 공개한 KLUE 벤치마크셋 2가지입니다. 이번 포스팅에서는 카카오 브레인에서 제공한 데이터를 사용할 계획입니다. SBERT 논문에서 STS를 구현한 방법은 두 가지입니다. 순수하게 STS데이터 만을 사용해서 유사도를 구한 방법과 NLI데이터로 사전훈련을 시키고 이후에 STS를 추가학습 시킨 continue learning 방법입니다. 이를 하나씩 구현해보겠습니다. 데이터셋 확인 학습 방법을 구현하기 앞서 KLUE에서 제공해주는 STS, NLI 데이터가 어떻게 생겼는지 확인해보겠습니다. STS(S..

오늘은 ELECTRA 논문에 대해서 살펴보겠습니다. ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)를 줄여서 일렉트라라고 이야기합니다. ABSTRACT 초록에서는 주로 BERT의 MLM에 대한 한계점을 지적하고 이를 보완한 모델이 ELECTRA라고 이야기하고 있습니다. BERT와 훈련을 동일한 환경에서 진행했을때 상당히 좋은 성능을 보였다고 이야기하고 있고 작은 모델에서도 좋은 성능을 보였다고 이야기하고있습니다. 또한, 강조하는 점은 적은 훈련 자원을 사용했다는데 있습니다. RoBERTa나 XMLNet과 비교해 1/4 만큼의 컴퓨팅 자원을 사용했을때 성능이 비슷하고 비슷한 자원을 사용하면 성능이 더..

이번 포스팅에서는 BERT 모델에서 파생되어 좋은 성능을 보이고 많은 자연어처리 분야에서 사용되고 있는 모델의 기반인 RoBERTa 논문을 살펴보는 포스팅을 진행해보겠습니다. (영어 실력이 좋은 편은 아니라 오역이 있을 수 있으니 알려주시면 감사하겠습니다!) AbstractRoBERTa의 탄생은 BERT가 undertrained(과소훈련)되어 있고 이후 출시한 모들의 성능이 비슷한 수준이라는 점을 발견하였기 때문이라고 합니다. 모델에서 사용하는 하이퍼파라미터 변경은 결과가 크게 변함을 언급하고 있고, GLUE, RACE, SQuAD에서 최고의 성능을 보여주었다고 합니다. IntroductionRoBERTa가 등장한 배경에 대해서 설명합니다. Abstract에서 이야기했듯 BERT가 undertrained..

NLP에서 주목받는 분야중 하나가 요약(Summarization)과 관련된 분야입니다. 이에 대해서 알아보고 BERT를 기반으로 만들어진 BERTSum 논문에 대해서 살펴보는 포스팅을 진행해보겠습니다. 0) 텍스트 요약 in NLP 텍스트 요약이라하면 긴 원문이 존재하고 그 안에서 핵심 내용만 추려서 원문에 비해 비교적 간소한 문장으로 변환하는 것으로 의미합니다. 이 텍스트 요약은 추출적(extractive) 요약과 추상적(abstractive) 요약으로 나뉩니다. 추출과 추상 두 가지 단어를 있는 그대로 이해하시면 됩니다. 추출적 요약은 원문에 있는 단어들을 활용해 요약을 만들어 내는것이고, 추상적 요약은 원문에 있지는 않은 단어들도 포함하여 요약문을 만들어 내는 것입니다. 흔히 요즘 이야기하는 생성A..

텍스트랭크(TextRank)는 페이지랭크(PageRank) 알고리즘에 기반하여 만들어진 자연어처리 방법입니다. 그렇다면 페이지랭크가 무엇인지 이해를 해야 텍스트랭크에 대해서 쉽게 이해할 수 있겠습니다. 그래서 이번 포스팅에서는 페이지랭크에 대해서 알아보고 이를 활용한 텍스트랭크에 대해서도 알아보겠습니다. 1) 페이지랭크(PageRank) 페이지랭크는 구글의 검색엔진의 핵심 알고리즘입니다. 구글에 내가 원하는 정보를 얻기 위해 검색해본 경험이 없는 사람은 없을 것 같습니다. 그렇다면 내가 키워드를 입력했을때 나오는 페이지들이 있는데 이 페이지들이 어떻게 보여지는가를 생각해보셨나요? 특히 구글을 검색하는 이유를 생각해보면 웹상에 존재하는 많은 사이트들의 다양한 결과를 받아볼 수 있기 때문일 것입니다. 그런데..

지난 포스팅 1) 데이터 수집, 전처리 - https://coco0414.tistory.com/82 2) LDA 토픽 모델링 - https://coco0414.tistory.com/83 3) CTM 토픽 모델링 - https://coco0414.tistory.com/84 4) KeyBert 토픽 모델링 - https://coco0414.tistory.com/85 5) BERTopic 토픽 모델링 - https://coco0414.tistory.com/86 데이터 수집부터 모델링 관련 코드는 Github에 업로드해두었습니다. 드디어 모든 토픽 모델링이 끝났습니다. 이번 포스팅에서는 4가지 모델링에 대한 각 게임에 대한 내용을 정리하며 프로젝트 마무리해보겠습니다. + BERTopic시각화 사용법 대해서 궁금..

이번에는 지난 포스팅에 이어서 BERTopic 토픽 모델링을 포스팅 해보겠습니다. 지난 포스팅 1) 데이터 수집, 전처리 - https://coco0414.tistory.com/82 2) LDA 토픽 모델링 - https://coco0414.tistory.com/83 3) CTM 토픽 모델링 - https://coco0414.tistory.com/84 4) KeyBert 토픽 모델링 - https://coco0414.tistory.com/85 3-4) BERTopic BERTopic에 대한 내용이 궁금하시면 링크를 클릭해주세요. BERTopic은 다양한 시각화 방법을 제공해줍니다. 토픽에 대한 다양한 시각화 방법은 링크에서 실행한 결과가 있으니 필요하시면 확인하시면 됩니다! 이번 포스팅에서는 BERTop..