분석하고싶은코코

데이터 분석(2) - 따릉이 수요량 예측 본문

데이터분석

데이터 분석(2) - 따릉이 수요량 예측

코코로코코 2022. 6. 6. 22:16
반응형

데이콘에 있는 연습 문제를 통해서 데이터 분석을 진행합니다.

(https://dacon.io/competitions/open/235576/data)

 

쥬피터 노트북에서 데이터 분석한 과정을 과져왔습니다.

-------

따릉이 예측

----

 

학습이 필요한 부분

- 예측 모델에 대한 이해

: 가이드 라인에 따라가면서 추천 모델이 랜덤 포레스트 모델이라 진행하였지만 랜덤 포레스트 모델에 대한 정확한 지식이 없었다. 좀 더 공부해볼 필요가 있을 것 같다. 다음 글은 데이터 분석에 대한 글이 아니라 데이터 분석 모델에 대한 글을 작성해보려한다.

 

- 로지스틱회귀분석

: 통계학에 대해서 능통한건 아니지만 겉핥기식 지식으로 결과과 0과 1인 경우 로지스틱 회귀분석을 통한 분석이 가능하다고 배웠다. 그래서 이번 분석을 하면서 우천에 대한 결과가 0과 1이라는것을 보자마자 떠올렸는데 구하려고 하는 값은 결국 대여량수다 보니 어떻게 활용해야할지 고민하다가 답이 안나와서 활용하지 못했다. 결국 위에서 분석한것 처럼 그냥 데이터 자체를 나눠서 분석해서 사용량 예측을 진행함ㅠ

 

- 데이터 분석을 위한 구분과 결합 과정

: 우천 여부에 따른 데이터로 훈련을 시켰지만 우천 여부가 나와있는 테스트 데이터에 각각 전부 적용해버렸다. 사실 이 부분을 결정하면서 고민이 많았다. 어찌됐든 예측하는건데 비가 올경우의 대여수량 예측인거고 비가 안올때 대여수량 예측이니 그대로 해도 되겠지와 훈련시킨 데이터가 너무 다른데 이러면 Underfitting(과소적합) 현상이 나타날 것 같았다.(확인은 안해봤지만 실제로 비우천인데 우천으로 예상한 결과는 무조건 이 현상이 있을 듯...) 그럼 테스트 데이터도 훈련 데이터처럼 구분을 시키고 각각의 훈련데이터로 예측을 하고 합칠까 생각이 들었다. 그 과정이

1. 테스트 데이터 우천별 데이터 분리

2. 우천별 훈련데이터에 맞게 테스트 데이터 데이터 피팅시켜 대여량 예측

3. 예측된 데이터 결합

4. 서브미션 데이터를 우천여부에 따른 정렬 이후 값 대입

3번 과정과 4번 과정이 추가 된다. 이렇게 안하면 예측값들이 본인의 값과 다른 곳에 들어가버리게 된다. 사실 머릿속으로 생각한 과정이라 이게 더 맞는 과정인지는 잘 모르겠다.

이렇게 하지 않은 이유는 예측이라는 것을 하기 때문에 비가 올것이다 라는 결과가 있지만 올것이기니 안올수도 있는거 아닌가? 라는 생각이 들었고 그러면 비가 안올때의 예측수량 올떄의 예측해보고 싶다라는 생각이 들어서 나눠서 해봤다. 잘 못된 모델이라고 생각이 되긴했지만 그래도 연습하는 과정이니 알고도 해보자라는 생각으로 해봤다ㅎ...

 

그래서 해봄...ㅎㅎ 내 생각에는 밑에가 더 잘 맞는 데이터 예측같다.

(1~2번 과정 스샷은 생략! 코드를 일부분만 가져오는 법을 몰라서 스샷으로 올림ㅠ)

 

반응형