일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 개체명 인식
- 토픽 모델링
- 데이터리안
- Tableu
- 원신
- 데벨챌
- LDA
- NLP
- 블루아카이브 토픽모델링
- geocoding
- BERTopic
- 구글 스토어 리뷰
- 피파온라인 API
- 문맥을 반영한 토픽모델링
- 붕괴 스타레일
- 다항분포
- 조축회
- Roberta
- CTM
- 트위치
- 블루 아카이브
- 코사인 유사도
- 데이터넥스트레벨챌린지
- 포아송분포
- 클래스 분류
- SBERT
- KeyBert
- 자연어 모델
- 옵티마이저
- Optimizer
- Today
- Total
목록통계 (12)
분석하고싶은코코

두 모집단의 평균을 비교하는데 표본들의 관계에 따라 다르게 비교가 가능합니다. ① 약을 복용한 그룹과 위약을 복용한 그룹을 대상으로 약의 효과 비교 ② 혈압약 복용 전과 후의 혈압 감소 효과 비교 ③ 다른 두 지역을 대상으로 대통령의 지지율을 비교 ④ 수면배게의 수면 시간 효과 비교 1번과 3번의 경우 두 가지 그룹은 독립적 관계입니다. 반면 2,4번은 대응표본에 해당됩니다. 그 이유는 하나의 집단에서 두 가지 사건에 대한 비교로 독립이라고 볼 수 없는 것입니다. 대응표본의 평균 비교는 독립표본의 평균비교와 크게 다르지 않은데 핵심적으로 다른점들이 조금씩 존재하는데 이를 하나씩 알아가보겠습니다. 1) 두 모집단 비교에서의 가정 이번 글에서는 분산이 같은 경우와 다른 경우에 대해서 알아보겠습니다. 하나 더..

중심축량중심축량 주축량이라고도 하는데 이 중심축량을 통해서 모평균, 모분산, 모비율에 대한 통계적 추론을 진행하게 됩니다. 중심축량은 표본을 추출하고 이를통해서 모집단의 모수 𝝁에 대한 점추정을 표본평균을 통해하게 됩니다. 또한 표본평균은 𝑵(𝝁, 𝝈^𝟐/𝒏)을 따릅니다. 이를 표준화하면 Z = (X_bar - 𝝁) / (𝝈/root(𝒏))의 형태가 됩니다. 이렇게 만들어진 Z는 모수와 통계량으로 이루어져 있고 분포는 미지모수를 포함하고 있지 않습니다. 이를 중심축량(주축량)이라고 합니다. 이 중심축량이 중요한 이유는 신뢰구간과 p-value모두 이 중심축량의 분포에서 나타내는 면적으로 연결되기 때문입니다. 모평균에 대한 통계적 추론모평균에 대한 통계적 추론을 하기에 앞서 모집단에 대한 정의가 필요합니다..

가설(hypothesis) 가설은 모수 또는 분포(모집단)에 대한 추측이나 주장을 의미합니다. 즉, 내가 주장하고자하는 값 혹은 분포를 의미한다고 생각하면 됩니다. 이렇게 주장하는 것이 있다면 반대로 그 주장에 반대되는 값들이 존재하겠죠. 이를 귀무가설과 대립가설로 이야기하고 각각 H0, H1이라 표현 할 수 있습니다. 각 가설은 다음과 같이 이야기할 수 있습니다. 귀무가설(H0) : 검정의 대상이 되는 가설 대립가설(H1) : 표본으로부터 얻은 정보를 이용해 입증하고 싶은 가설 즉, 내가 주장하고 싶은게 대립가설이되고 그에 반대되는 가설이 귀무가설이 된다고 생각하시면됩니다. + 가설검정의 원리 그렇다면 이렇게 설정한 가설을 어떻게 검정을할까요? 이 가설검정의 원리를 쉽게 이해하기 위해서 먼저 이해하고 ..

지금까지 앞서 작성한 기초통계학의 내용은 추정과 검정을 하려는 기반을 쌓은 것이라고 볼 수 있다. 추정은 데이터로부터 확률분포를 찾아내는 역설계 과정이다. 추정을 통해 데이터는 확률변수로 바뀌게 되고 검정은 이러한 추정이 어느 정도의 신뢰성을 가졌는지 알아보는 과정이다. 검정을 통해 추정 결과가 믿을만한지 아니면 믿을만한 추정을 위해 데이터가 더 필요한지를 알 수 있다. 앞서 서술했던 기초통계학의 모든 내용들은 '모집단 -> 표본'의 과정에 집중했다면 통계학은 그 역인 '표본 -> 모집단'을 추론 및 검정하는 과정을 하게 된다. 그 과정은 표본들이 어떤 확률분포를 따르는지 찾아내고 확률분포의 모수가 무엇인지 찾아내는 것이다. 그렇게 찾아냈다면 이제 추정하고자 하는 모집단의 모수를 추정하는 작업을 하게 된..

정규분포 정규분포는 통계학에서 가장 많이 쓰는 형태로 처음에는 가우시안 분포라고 불렸으나 이제는 정규분포라고 불리는 분포입니다. 분포라는 개념을 알고 있는 사람에게 분포 예시를 그려보라하면 대부분이 그리는 종모양의 분포인데 그게 바로 정규분포 입니다. 정규분포는 연속확률분포로 실수 전 범위에서 정의되고 모수(Parameter)로는 평균과 분산을 갖습니다. 앞서 모수는 분포의 모양을 결정하는 요소들이기에 파라미터로 표현한다고 했습니다. 그렇다면 이를 Python을 통해 그래프 비교를 해서 확인해보았습니다. 아래 그림처럼 평균의 크기가 바뀌면 그래프 자체의 위치가 움직이고 분산의 크기가 바뀌면 평균을 중심으로 그래프의 높이가 바뀌는 것을 확인할 수 있습니다. import numpy as np from sci..

포아송분포 포아송분포는 흔히 알려진게 단위시간(범위) 내에 어떤 사건이 발생하는 횟수를 나타내는 이산확률분포를 이야기합니다. 그렇다면 이 포아송분포는 언제 사용할까요? 앞서배운 이항분포에서 모수(Parameter) n과 p가 존재했는데 여기서 n이 너무 크다면 이항분포를 사용하기 어렵습니다. 거기에 더해 p가 충분히 작은 경우 이럴때 이항분포의 근사확률 계산에 포아송분포를 사용하게 됩니다. 쉽게 이항분포는 횟수를 포아송은 비율을 본다는 느낌으로 이해하시면 쉽게 이해가 될 수 있습니다. 이항분포에서 n이 너무 클 경우 포아송으로 대체할 수 있다고 했습니다. 포아송에서는 기댓값을 lambda라고 하는데 이 lambda만 알면 쉽게 포아송에 대한 확률질량함수를 구할 수 있습니다. 실제로 Python scipy..

(이번 통계학 포스팅부터는 Python의 scpiy모듈을 통해 구현해 볼 수 있는 부분들은 최대한 구현해보면서 진행해보겠습니다.) 베르누이 시행 베르누이 시행은 단순하게 결과값이 2가지로 나오는 실험이라고 생각하면된다. 동전 던지기가 대표적이다(동전이 서있을 확률이 0이라면!) 또한 이 실험을 동일하게 진행할 수 있는데 각 실험들은 독립적이고 매번 확률이 변하지 않는다는 조건의 실험이 베르누이 시행이라 한다. 정상제품 8개 불량품 2개가 있는 모집단이 있다고 했을때 2번을 뽑았을때 2번 모두 불량품을 뽑을 확률은 얼마일까? 여기서 생각할 수 있는건 복원 추출과 비복원 추출의 경우가있다. 복원추출의 경우 매번 뽑을때마다 2/10의 확률로 불량품이 뽑힌다. 결국 2번 모두 불량품을 뽑을 확률은 0.04(4%..

확률변수(Random variable) 확률변수란 표본공간에서 정의된 실함수이다. 이렇게 표현하면 이해하기 어려우니 쉽게 이야기하면 확률실험을 통해 만들어진 표본집단에서 특정확률로 발생하는 결과를 실수형태로 부여하는 값을 말한다. 예를들면 동전을 던지는 실험에서 앞면과 뒷면이 나올 확률은 각각 1/2인데 이에 대한 결과값은 결국 앞면과 뒷면이다. 이래도 잘 이해가 안될 수 있는데 자세한 예를 들어보면 동전을 총 3번 던지는 실험을 진행한다. 그러면 표본공간은 다음과 같다. { 앞앞앞, 앞앞뒤, 앞뒤뒤, 앞뒤앞, 뒤앞앞, 뒤뒤앞, 뒤앞뒤, 뒤뒤뒤 } 이때 사건을 '앞면 이 나온 수'라고 할때 위 표본공간은 { 3, 2, 1, 0 }이 된다. 이 숫자들이 확률변수가 된다. 이를 X라 하면 그 안에있는 하나하..