확률
이항분포 조건부 확률
Bayseian Theorem (사각형 생각!)
💡
베이지안의 핵심 = 사전 확률에 그대로 머무르지 않고, 추가적인 이벤트가 발생함에 따라 변화하고 사후확률
을 update해나간다는 것!
Bayses Theorem 개념
- 인공지능의 의사결정에 매우 강력한 도구
- 이유 불충분의 원리 : 50%라고 정의하는 것(라플라스의 정의)(주관적 요소로 볼 수 있다)→ 하지만, 베이즈 정리는 객관적인 확률로 점차 나아감. 데이터가 많을수록 올바른 의사결정을 할 가능성이 늘어남.
- 사전 확률 지속적으로 update → 베이즈 정리의 중요한 통찰
https://www.youtube.com/watch?v=Y4ecU7NkiEI&t=1s
- 50% (사전확률)→ 57% (사후확률 : 초콜릿을 주었다는 정보 때문에 봐야하는 값이 달라짐)
- 베이즈 정리: 사전 확률을 바탕으로 사후확률을 정의하는 것
- ‘불가능한 것을 제거하고 나면, 남는 것은 아무리 사실과 멀어 보일지라도 진실임이 틀림없다’ (명대사 중 하나)
- 쉽게 이해: 상황을 사각형으로 시각화하는 것
- 먼저 세로축으로 나눠주고 → 각각 가로축으로 분할 → 작은 정사각형 넓이 자체가 확률!!! → 관찰 영역만 뽑아줌
확률
- 확률 : 어떤 사건에게 어떤 일이 일어날 가능성을 수로 나타낸 것
- 전체 확률의 법칙 : 사건에 의해 발생한 모든 잠재적 결과들이 나올 확률의 합은 1이다.
이항 분포
- 이항 분포 : 결과가 두 가지 옵션을 가지는 사건의 확률을 결정하는 함수
- 1. n : 동전 던진 횟수, k : 앞면 나온 횟수 (factorial 이용)
- nCk=n!k!(n−k)!nCk= \frac{n!}{k!(n-k)!}nCk=k!(n−k)!n!
- 2. k번 앞면이 나오고 n-k번 뒷면이 나오는 확률
- pk(1−p)(n−k){p}^k (1-p)^{(n-k)}pk(1−p)(n−k)n!k!(n−k)!pk(1−p)(n−k) \color{blue}{\frac{n!}{k!(n-k)!}{p}^k (1-p)^{(n-k)}} k!(n−k)!n!pk(1−p)(n−k)
- 이항 분포의 공식 : 1의 (n번 동전을 던져 앞면이 k번 나오는 경우의 수) x 2의 (k번 앞면이 나오고 n-k번 뒷면이 나오는 확률)
- pk(1−p)(n−k){p}^k (1-p)^{(n-k)}pk(1−p)(n−k)n!k!(n−k)!pk(1−p)(n−k) \color{blue}{\frac{n!}{k!(n-k)!}{p}^k (1-p)^{(n-k)}} k!(n−k)!n!pk(1−p)(n−k)
- 1. n : 동전 던진 횟수, k : 앞면 나온 횟수 (factorial 이용)
조건부 확률
- 조건부 확률 (Conditional Distribution) : 어떠한 사건의 결과에 의해 영향을 받는 한 사건의 결과에 대한 확률
- 서로 관련되어 있는 사건에 사용 (동전 던지기와 같이 독립적인 시행x)
P(A∣B)=P(A∩B)P(B)P(A|B) = \frac{P(A\cap B)}{P(B)}P(A∣B)=P(B)P(A∩B)
Bayesian Theorem 🤝
조건부 확률을 베이지안 이론으로 확장시켜보자.
P(A∣B)=P(A∩B)P(B)=P(B∣A)P(A)P(B)P(A|B) = \frac{P(A\cap B)}{P(B)} = \frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(A∩B)=P(B)P(B∣A)P(A)
어느 관점에서 보느냐에 따라 달라짐.
ex) P(A|B) → B의 관점에서 A를 보는 것.
B의 관점에서 A와B의 교집합을 나타낸다.(이런 식으로 생각하고 있기)
- prior distribution : P(A)
- data : P(B|A)
prior, data → posterial distribution
: P(A|B)→ 이것이 베이즈 정리의 핵심!! (보고자 하는 관점을 달리하는 것)
ex) 전체 인구 중 1% 정도 걸리는 암이 있다. (prior distribution
)
암이 있는 사람 중 90%는 테스트에서 positive하게 나온다. (data
)
암이 없는 사람 중 90%는 테스트에서 negative하게 나온다. (data
)
→ 문제 : 테스트에서 positive가 나왔을 때, 정말로 암이 있을 확류인 P(cancer | positive)는 뭘까? (posterial distribution
)
EX ) Guilty or Not
한 범죄사건의 용의자가 유죄일 확률은 60%라고 형사는 확신하고 있습니다.
그 후 해당 사건의 범인이 왼손잡이라는 증거가 발견되었고, 용의자는 왼손잡이 입니다. 전체 인구의 20%가 이 특성(왼손잡이)을 가지고 있습니다.
Sol)
P(유죄) = 0.6
P(무죄) = 0.4
P(왼손 | 유죄) = 1
P(왼손 | 무죄) = 0.2
P(유죄 | 왼손) = ?
P(유죄∣왼손)=P(왼손∣유죄)P(유죄)P(왼손)=0.60.68P(유죄 | 왼손) =\frac{P(왼손 | 유죄)P(유죄)}{P(왼손)} = \frac{0.6}{0.68}P(유죄∣왼손)=P(왼손)P(왼손∣유죄)P(유죄)=0.680.6
P(왼손) = P(왼손 | 유죄)P(유죄) + P(왼손 | 무죄)P(무죄) = 0.6 + 0.08
NETFLIX
- 넷플릭스 추천 알고리즘 : 나이브 베이즈 알고리즘
- cold start : 아무 정보도 없는 확률Ex) 사전확률 → 시간이 지나고 시청자 영화 열편 봄
시청자가 좋아하는 영화에 좋아요를 누를 확률 → 0.3/0.4
→ 75% : 사후확률 → 좋아하는 영화 장르를 더 노출시킴
→ 배우에 따라서 좋아요 누른 영화들로 평가 가능.
→ 넷플릭스는 액션장르일때, 그 영화를 좋아할 확률 : 75%
→ 배우에 따라 나누기.
‘어떠한 배우’가 출연한 영화를 시청자가 얼마나 좋아할지의 확률 → 0.6/ 0.65→ 92.3%로 이 배우의 영화를 시청자에게 더 많이 노출시
- 당신의 정보를 학습하면서 정확도 개선!
- 사각형을 보며 제대로 이해 가능!
'Statistics' 카테고리의 다른 글
AB Test (0) | 2023.02.27 |
---|---|
Hypothesis Test (0) | 2023.02.26 |
CLT (중심극한정리) (0) | 2023.02.26 |