표본 bootstrapping 큰수의법칙 CLT 신뢰구간
→ 표본(sample)의 통계치를 이용해 모집단의 모수를 추론해내기!
모집단의 모수를 추론하기 위해.
→ 표본 추출 통해, 표본들의 평균 분포 구하기, bootstrapping
→ 큰수의 법칙에 따라 clt로 표본 평균 분포가 정규분포 이룸
→ 신뢰구간 이용해 모수 포함되있을 구간 추론
→ 모집단의 모수 추론 끝!
기술 통계 vs 추리 통계
모집단(poplutation) : 우리가 알고자하는 모든 대상
- 기술통계 (Descriptive Stastics)
- describe()
- 수집한 데이터를 묘사, 설명하는 통계 기법
- mean, median, mode
- var(분산 : 편차제곱의 평균, 데이터가 얼마나 퍼져있는지 보기 위해서) , std, quatile
- 추리통계 (Inferential Statistics)
- 기술 통계와 달리, 표본 사용!
- 표본 집단의 통계값 → 모집단 모수 추론
- → Effective Sampling
- 이 추리통계를 어떻게 할지 알아보자!!
표본 분포 (Sampling Distribution)
: 모집단에서 추출한 샘플의 통계치 분포
sample을 모집단이라고 가정하고
→ 여러번(천번,,만번,,) 의 sampling 진행함, sample의 평균값 계산
→ (천개,, 만개,,)의 평균값이 구해짐
→ 이 평균값들의 분포 : 표본 분포
→ 추후 신뢰구간을 구할 것이다. 우리가 가지고 있는 모수의 값을 추론
- 왜 중요한가
- 모집단의 모든 데이터를 가질 수 없기에, 모수를 알 수 없으므로 우리가 가지고 있는 한정적인 데이터를 이용하여 모수 추론할 수 있어 중요
EX ) 모집단에서 10개의 샘플 추출해 표본 분포
np.random.choice([0,1], size=5000, p=[.22, .78])
→ 모집단에서 10개의 데이터 추출 (0,1이라는 데이터 5000개 만듬. 0은 22%, 1은 78% )- 10개의 데이터 평균 계산해 리스트에 저장
- 1,2과정을 for루프통해 10000번 반복 → 리스트에는 10000번 추출된 10개데이터의 평균값 저장되있음
- histogram 이용해 리스트에 존재하는 평균값들의 분포 확인
var = 모집단의 분산 = 모집단평균 x (1-모집단평균)
Bootstrapping 테크닉
: 중복 추출을 허용하여 원하는 개수의 데이터를 추출하는 것.
→ 많이 할수록 좋다! ( dataset의 개수만큼 정도는 최소 수행해줘야 좋다.)
- ex) 10000명의 사람 중 표본으로, 우리가 가지고 있는 5000명의 데이터를 모집단이라 가정한 뒤, 이 모집단에서 for루프 사용해 샘플 10000번 추출 후, 이 샘플들의 평균 분포 확인하는 과정.
- Bootstrapping의 장점
- 우리가 알고자하는 것 : 모집단의 모수
- 이 모수를 더 잘 이해하기 위해, 더 많은 데이터를 필요로 하지 않고, 우리가 가지고 있는 데이터로 추정할 수 있는 점
- Sample Size에 따른 차이
# 샘플의 개수가 10개일 때의 표본분포
sample_of_10 = []
np.random.seed(10)
for _ in range(10000):
sample = np.random.choice(모집단, 10, replace=True) # replace=True : 중복 허용
sample_of_10.append(sample.mean())
plt.figure(figsize=(8,6))
plt.hist(sample_of_10, alpha=.5
- 샘플 사이즈가 10개 일 때의 표본 분포의 분산
- = 모집단의 분산 / 10(sample size)
- sample size가 10, 100인 경우 비교
- sample size가 커질수록 표본 분포 폭이 좁아짐. ( 분산이 줄어든것 )
- 분포의 폭이 좁아졌다 → 표본 분포가 가지고 있는 평균에 대한 신뢰도가 높아진 것임
- 모집단의 분산= 모집단의 평균 x (1-모집단의 평균)
- 표본 분포의 분산 = 모집단의 평균 x (1-모집단의 평균) / sample_size
큰 수의 법칙 (Law of Large Numbers)
: sample size가 커질수록, sample의 통계치는 모집단의 모수에 가까워진다는 이론
→ 모집단의 평균을 알고자할 때, 이를 모집단에서 추출한 샘플들의 평균값으로 지정할 수 있고, 이때 추출한 샘플 사이즈가 클수록 모집단의 평균을 측정하기에 좋다.
CLT : Central Limit Theorem (중심극한정리)
: 충분할 샘플 사이즈를 확보한 경우, 모집단의 분포에 상관없이, 임의의 분포에서 추출된 표본들의 평균 분포는 정규분포를 이룬다
- 균일분포 (uniform distribution) : 0-1사이 확률값이 균등해 모두 동일해 ‘균일’함.
- 20개의 임의의 표본 수집 → 해당 표본에 대한 평균 구한 것으로 해당평균값에 대한 히스토그램 그림
- 하나의 평균값만 있기 때문에 히스토그램 모양이 별로임 → 100개까지 평균을 구해보면, 평균값들이 정규분포를 따른다는 것을 알아챔.
- 앞서 구한 평균값들이 균일분포에서 나온 데이터 사용했더라도,
- 그 평균값은 균일분포 따르지 않고, 정규분포 따른다.
- 지수 분포 : 위와 똑같이 임의의 표본 100개 뽑아 평균값을 히스토그램 그림
- 앞서 구한 평균값들이 지수분포에서 나온 데이터 사용했더라도,
- 그 평균값은 지수 분포를 따르지 않고, 정규분포를 따른다.
- 앞서 구한 평균값들이 지수분포에서 나온 데이터 사용했더라도,
→ 어떤 분포로 시작한다고 해도 표본들의 평균값들은 정규분포를 따를 것이다
- 평균의 정규 분포
- 신뢰구간 만드는 데 사용
- 두 표본 간의 평균의 차이가 있는지 묻는 t-test
- 3개 이상의 표본 간의 평균의 차이가 있는지 묻는 ANOVA
Confidence Interval (신뢰구간)
: 어떠한 모수에 대한 특정 값을 예측하는 것이 아닌, 이 모수를 포함하고 있을 구간
→ 모집단의 모수를 추정할 수 있는 확률적 근거
→ 모수가 포함되어 있을 구간을 확률과 함께 제공해 불확실성을 줄이고, 우리가 찾은 모수의 신뢰성 가늠
ex) 이 비율은 68%에서 85% 사이에 있을거라 95% 확신한다.
lower = np.percentile
(처음 ,2.5)
upper = np.percentile(끝단, 97.5)
More Study
- 베르누이 분포 : 한 번의 시행에서 나타나는 이진 결과를 다루는 분포
- 이항 분포 : 여러번의 베르누이 시행에서 나타나는 이진 결과의 개수를 다루는 분포
- 이항분포는 동일한 베르누이 분포를 따르는 n번의 시행에서 성공(1)의 개수를 확률 변수로 가짐
- 이항 분포는 베르누이 분포의 확장된 개념이라 생각.
'Statistics' 카테고리의 다른 글
AB Test (0) | 2023.02.27 |
---|---|
Hypothesis Test (0) | 2023.02.26 |
Bayses Theorem (0) | 2023.02.26 |