분석하고싶은코코

데이터 분석 체험하기 - 영화 관객수 예측 본문

데이터분석

데이터 분석 체험하기 - 영화 관객수 예측

코코로코코 2022. 6. 3. 19:24
반응형

데이터 분석을 공부하고 기록하고 싶어서 작성하게 된 블로그이자 작성글 입니다.

 

데이터 분석에 대해서 차근차근 알아가보고 싶어서 작성하게 되었습니다.

 

사실 무턱대고 ADsP공부해서 취득하기는 했지만 지금 보면 기억 나지 않는 부분들이 많아서 기록하고 돌아보기 위해서 작성합니다.

 

무언가를 공부하기 이전에 이론적인 공부부터하면 흥미가 떨어진다는 주의라 데이터 분석에 대해서 체험해 보고 이론을 알아가는 흐름으로 가보려 합니다.

 

오늘 체험해볼 데이터 분석은 '영화 관객수 예측'에 대한 데이터 분석입니다. 코드는 가장 잘 예측된 모델이라는 코드를 가져와 사용하였습니다.

 

데이터 자료는 데이콘에서 쉽게 구할 수 있습니다.(링크 첨부)

https://dacon.io/competitions/open/235536/overview/description

 

데이콘에서 데이터 분석에 대해서 혼자서 공부할 수 있게 잘 짜여 있고 데이터 분석을 공부하는 사람들과 정보, 코드 공유를 할 수 있어 좋은 사이트이니 혹시 데이터 분석을 공부하려 하시는 분들은 활용 하시면 좋겠습니다.

 

데이터 분석을 위해서 Jupyter Notebook을 활용해서 진행 하였습니다.

 

-----

지금부터 쓰는 내용은 모두 쥬피터 노트북에서 작성한 글입니다.

영화 데이터 분석 예측 6.1

 

 

----

데이터 전처리 하는 과정까지는 따라갈 수 있었는데 데이터 분석을 위해서 등급을 분리하고 중앙값과 평균값을 사용하는 과정은 이해하기 좀 어려웠다. 

 

데이터 분석에 대해서 잘 알지 못하지만 이 부분이 데이터 분석하는데 있어서 분석가마다 다른 결과가 나오는 중요한 부분이라고 생각 됐다.

 

타켓값을 로그 변환하는 과정은 정규화 분포를 만들기 위한 과정이라고 찾아봤는데 솔직히 아직 잘 모르겠다. 앞으로 공부하면서 알아가야할듯ㅜ 한 번에 너무 많으 정보를 받아 들이면 과부하 오니까 천천히 하기로..

 

이번 글은 데이터 분석의 예시로 알아보기 위해서 데이콘에 있는 예시 자료를 가져와서 직접 실행해 보는 과정을 담았다.

 

앞으로 데이터 분석의 과정들을 공부하면서 오늘 실행한 코드를 자주 불러와서 예시로 들어볼 수 있을 것 같다.

 

 

반응형