일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 데이터리안
- 클래스 분류
- SBERT
- 자연어 모델
- 개체명 인식
- 데이터넥스트레벨챌린지
- 붕괴 스타레일
- LDA
- KeyBert
- Roberta
- geocoding
- Optimizer
- 코사인 유사도
- 블루 아카이브
- 옵티마이저
- 포아송분포
- 데벨챌
- 조축회
- NLP
- 구글 스토어 리뷰
- 원신
- CTM
- 트위치
- 다항분포
- 피파온라인 API
- Tableu
- 토픽 모델링
- BERTopic
- 문맥을 반영한 토픽모델링
- 블루아카이브 토픽모델링
- Today
- Total
목록머신러닝&딥러닝/RF(강화학습) (6)
분석하고싶은코코
RLHF를 활용한 던전앤파이터 챗봇 만들기 프로젝트를 진행하였습니다. 사실 HF가 아닌 랜덤성이긴 하지만 비슷한 형태로 진행되기는 했습니다...ㅎ 여튼 이번 프로젝트에서 느낀점은 HF... RM을 위한 데이터 구성, 결국은 훈련시킬 데이터가 중요하다라는 것을 느낄 수 있었습니다. 느낀점은 후기에서 좀 더 작성하고 진행한 프로젝트에 대해서 이야기를 시작해보겠습니다. 지난번 포스팅에서 데이터 수집을 진행하였습니다. 완벽하게 던전앤파이터에 대한 데이터를 학습할 정도는 아니지만 던전앤파이터 세계관에 대해 이야기할 수 있는 Chatbot을 만들기에는 충분한 데이터가 수집되어 훈련을 진행하였습니다. 던전앤파이터 공식 홈페이지와 루리웹, 나무위키의 메인스토리 텍스트 데이터를 사용하였습니다. 포스팅에서는 SFT, RM..
이번 포스팅에는 NLP분야에서 PPO 알고리즘을 구현하기 위한 TRL패키지에 대한 이야기와 이전에 포스팅했던 ColossalAI에서 제공하는 패키지의 다른점들들 몇가지에 대해서 기록합니다. 현재 던전앤파이터의 세계관에 대해서 이야기할 수 있는 챗봇을 만드는 작업을 진행하고 있습니다. 지난번 RLHF에 대한 이야기를 하면서 작성했던 코드들은 모두 ColossalAI에서 제공하는 패키지로 KoGPT모델을 통한 훈련을 진행하였습니다. 그런데 해당 실습을 하면서 문제점은 작은 모델이여서 생각만큼 원하는 결과가 나오지 않는다는 것이었고, 두번째로 사용하는 패키지가 최근 버전과는 맞지 않아서 강제로 다운그레이드를 해서 진행을 해야하는 번거로움이 존재했습니다. 그래서 던파 챗봇 프로젝트에서는 해당 패키지를 사용하지 ..
해당 실습은 단순히 RLHF 예제를 따라해보는게 아니라 실제로 나만의 데이터를 수집하고 만들어서 훈련을 시켜보는 목적에 있습니다. 아직 RLHF에 대한 포스팅이 마무리되지는 않았지만 내용을 정리하고 있어서 포스팅하지 못했습니다. 너무 포스팅만하면 집중이 잘 안되기도 해서 공부한 내용을 바탕으로 실습 프로젝트를 진행하고 있습니다. 이 글에 포스팅된 부분도 아직 진행중이지만 시간이 해결해줄 부분만 남았고 간단한 내용이라 먼저 포스팅을 진행합니다! RLHF실습에 선택된 데이터는 던전앤파이터의 스토리 관련 데이터를 선택하였습니다. 게임 쪽에 관심이 많았고 궁극적으로 만들어 보고 싶은건 게임 캐릭터의 성격을 가진 자연어 모델을 만들어보고 싶었습니다. 그래서 게임 분야의 스토리를 선택하였습니다. 그 중에서도 던전앤..

RLHF의 학습 방법중 마지막 단계인 PPO를 진행해보겠습니다. PPO는 앞서 진행한 모델 훈련이 아닌 모델을 훈련하기 위한 알고리즘중 하나입니다. 해당 알고리즘은 강화학습이 발전하면서 탄생한 알고리즘으로 이해하는 과정이 조금 길 수 있지만 장기간 SOTA알고리즘 자리에 위치해 있던만큼 알아가면 좋은 알고리즘입니다. PPO알고리즘에 대한 설명은 위 링크를 참고하시면 될 것 같습니다. PPO알고리즘에 대한 설명보다는 NLP에 PPO알고리즘을 어떻게 적용할까에 대해서 초점을 맞춰 이야기 해보겠습니다. 아래 사진은 NLP에 PPO 알고리즘을 적용한 과정을 하나의 사진으로 정리한 것입니다. PPO알고리즘에서 업데이트될 θ를 Trained LM(Actor)이 되는 것이고 θ_OLD 값을 갖고 있는게 Frozen ..

RFHF에 대한 이해를 하기 위해서 마지막 단계에서 활용되는 PPO알고리즘에 대해서 이해를 해야만 했습니다. 그래서 이 부분에 대해서 논문과 여러 정보들을 찾아보면서 이해하다보니 시간이 좀 걸리긴 했지만 이해한 내용을 바탕으로 PPO(Proximal Policy Optimization)에 대해서 포스팅해보겠습니다. 이번 포스팅 역시 복잡한 수식을 통해서 이해하는 과정을 설명하지는 않겠습니다. (해당 알고리즘에 대해서 이해하기 위해서는 Q-learning방식의 단계부터 이해하셔야만 합니다.ㅠ.ㅠ 저는 이해를 위해 Youtbe 혁펜하임 채널에 도움을 많이 받았습니다.) Importance Sampling PPO 알고리즘 이전에 있었던 알고리즘은 Reinforce, Aactor-Critic, A2C, A3C ..

RF(Reinforcement learning)에 대해서 이해하는 과정에 대한 페이지로 여러 시리즈로 작성할 예정입니다. 당장의 RF에 대한 이해보다는 RF라는 분야에 대해서 천천히 알아가는 과정의 시리즈 입니다. 이 시리즈는 복잡한 수식에 대한 이해보다는 과정에 대한 이해를 중점으로 두고 있습니다. 강화학습을 이해하기 좋은 대표적인 알고리즘은 Q-learning알고리즘입니다. 이 알고리즘은 쉽게 말하자면 목적지까지 Greedy한 선택하여 경로를 찾는 방법입니다. Greedy란 탐욕적으로 큰 값을 찾아가는 의미입니다. 그런데 이 알고리즘은 출발 지점에서 내가 지나온 거리에 대한 정보를 담고 목적지까지 찾아가는게 아니라 역으로 계산합니다. 즉, 찾고자하는 'Goal' 목적지가 있는데 도착하게 되면 Rewa..