분석하고싶은코코

기초 통계 본문

통계

기초 통계

코코로코코 2022. 10. 26. 16:39
반응형

이번 파트는 강의를 들으면서 이해하기 어려웠다. 그래서 따로 찾아서 공부하고 데이터 분석과 연관된 내용들 위주로 정리해보려고 노력했다. 지극히 비전공자의 개인적인 정리글이라 전문적이지도 않음!

 

 

 

0. 통계학

통계학이 뭘까 찾아 보다가 좋은 블로그 찾아봐서 링크함.()

블로그에서 말한 것처럼 통계가 오차를 다루는 학문이고 이게 시대 흐름에 맞춰서 데이터 사이언스, 데이터 분석으로 부르는 단어가 바뀐느낌이다. 그래서 데이터 분석 업무를 앞으로 해나가고 깊이있게 하려면 통계에 대한 공부 역시 놓치지 말아야할 부분이라고 느꼈다.

 

1. 데이터 분석에 사용하는 통계

공부하면서 중요하다고 느꼈던 개념들을 7~80%는 알고 간다는 생각으로 정리해보았다.

 

이항분포

이항분포 이전에 알아야할 개념은 베르누이 분포이다. 베르누이 분포는 1또는 0 혹은 참 또는 거짓처럼 결과가 2가지의 경우밖에 없는 경우의 확률분포이다. 이 베르누이 분포를 여러번 시행하여 모이게 된 것이 이항분포로 이해하면된다. 중요한건 n번 시행한 모든 사건들은 모두 독립사건이라는 것. 이항분포에서 성공/실패 확률을 구하는법, 평균과 분산 구하는 공식을 유도하는 것까지 배웠는데 솔직히 하라고 하면 못하니까 지금은 그냥 식 자체를 외워야겠다.

 n = 총 시행횟수, r = 성공 횟수, p = 성공확률, q = (1-성공확률)

확률 :  nCr * p^r * q^(n-r)

평균 : np

분산 : npq

예를들어 동전을 던져서 나오는 경우의 수는 앞과 뒤 두가지 뿐이다.(던졌는데 동전이 세워지는 경우는 없다고 가정) 5번 동전을 던져서 앞면이 나올 확률을 계산해자. 이때 앞면과 뒷면이 나올 확률이 각각 75%(앞), 25%(뒤)라고 가정한다면

확률 : (5C3) * (0.75^3) * (0.25^2) =  0.2637

평균 : 5 * 0.75 = 3.75(앞면이 나오는 것, 5번 던지면 평균적으로 약 4번 앞면이 나온다고 유추 가능)

분산 :  5* 0.75 * 0.25 = 0.9375

 

 

정규화 VS 표준화

정규화 - 비교하려는 두 데이터의 범위가 다를때 이 범위를 왜곡하지 않고 공통 척도로 변경하는 작업을 말함

표준화 - 정규분포의 속성을 갖도록 변화 시키는 과정 (평균 = 0, 표준편차 = 1)

데이터 분석에서는 표준화를 통한 이상치 제거후 정규화를 통해서 상대적 크기의 영향력을 줄인다고 한다.

 

 

정규분포

정규분포는 종모양 형태로 생긴 분포를 말한다. 정규 분포중에서도 평균이 0이고 표준편차가 1인 정규분포를 표준정규분포라 한다. 그래서 위에서 언급한 표준화가 이 표준정규분포로 만드는 것을 의미한다. 이 정규분포가 중요한 이유를 꼽자면 아래와 같다.

1. 정규분포는 평균과 표준편차만 알고 있다면 쉽게 정의가 가능하다. 

2. 정규분포를 이루지 않았던 분포도 표본의 수가 커진다면 중심극한정리에 의해서 정규분포를 따른다.

 

중심극한정리

표본의 수가 많다면 모집단은 정규분포를 따른다는 이야기이다. 모집단에서 표본집단을 충분히 많이 뽑아서 분포를 만들어보면 어느 형태의 모집단 분포여도 정규분포 형태를 띈다는 것이다.

참고 영상 (https://www.youtube.com/watch?v=YAlJCEDH2uY)

 

 

카이제곱 분포 & 카이제곱 검정

카이제곱 분포 -> 어느 분포에서 랜덤하게 추출한 데이터의 제곱의 합을 그래프로 나타낸 것.

카이제곱 분포를 사용하는 이유는 해당 결과가 정말 우연히 발생한 것인가에 대한 검정하는데 사용한다.

카이제곱 검정은 단일표본의 모집단이 정규분포를 따르고 분산을 알고 있을때 사용한다.

카이제곱 검정을 하는 목적 -> 적합도 검정, 교차 분석

 

- 적합도 검정 : 기대 분포와 관찰 분포의 비교

Ex) 팀 선정을 위해 상자에서 공을 뽑는다고 했을때 상자 안에는 동일한 수의 공이 들어 있는가에 대한 검정. 기대 카이제곱 값 VS 실제 나온 경우의 카이제곱 값. if 실제 나온 경우의 카이제곱 값이 컸다면 상자 안의 공은 동일하게 들어있지 않다고 말 할 수 있음.

 

- 교차 분석 : 범주형 변수가 2개 이상인 경우 사용

Ex) 남자와 여자가 좋아하는 통신사가 다르다 할 수 있는가?

 

 

t검정(t-Test)

t검정 - 모집단의 분산과 표준편차를 알 수 없을때 표본의 분산과 표준편차를 활용해 2개의 모집단의 평균을 비교하는 것. t검정은 정규분포라는 가정이 가능할때 사용 가능하다.

(3개 이상의 경우 ANOVA분석)

t값 - 표본이 귀무가설과 얼마나 잘 맞는지 나타내는 지표. 0에 가깝다면 귀무가설에 찰떡. 절대값이 커지면 귀무가설과 차이가 커지는 것.

 

 

F검정, ANOVA(분산분석)

F값? -> 집단 간 분산과 집단 내 분산으로 표현한 값

F-검정의 가장 대표적으로 볼 수 있는게 ANOVA(분산분석)이다. ANOVA는 2개 이상의 집단의 평균을 비교할때 사용하는데 이때 F-검정을 평균을 비교하기 위한 수단으로 사용한다.

분산분석의 간단한 예시로는 임상실험이다. 두통약에 대한 실험을 하기위해 90명의 참여자를 랜덤하게 30명씩 3그룹으로 나누고 A,B그룹에는 실험약을 주고 C그룹에는 아무 효과가 없는 거짓약을 주고 약을 먹고 난 이후 두통에 대한 점수를 1~10점으로 표시해보았다. 이때 약이 효과가 있는지 확인하려면 A,B그룹과 C그룹이 같지 않다라는 것을 확인해야하고 이를 위해 분산분석을 사용하게 된다.

 

 

 

기초통계 파트 후기...

통계학을 잘 아는 것은 아니지만 통계 파트 강의를 전부 다 들으면서 느꼈던 점은 어려운것 중에 필요한 부분을 뽑아 쉽게 설명해주시는 느낌이 아니라 어려우니까 어려운대로 설명해드렸습니다! 이런 느낌이었다. 이렇게 느낀게 강의 내용 초반에 분포에 대한 설명을 하면서 유도하는 과정을 전부 설명하신게 크지 않았나 생각이든다.

앞부분부터 공식 유도하는 과정을 하나하나 설명하는데 피피티 읽으면서 이건 이렇죠. 맞죠? 하고 넘어가니까 템포 따라가기 힘들어서 따로 찾아봤다. 따로 찾아본 내용들 바탕으로 내용 정리해서 이번 파트 강의는 솔직히 좋았다고는 말하기 어려울 것 같다.

 

반응형