📜 Certs/ADsP

ADsP 메모 - 확률변수와 통계

hjwjo 2024. 10. 21. 11:49

ADSP(데이터 분석 전문 자격증) 준비를 위해 확률변수와 통계의 기초 개념을 정리해보았습니다.

1. 확률변수의 종류

이산형 확률변수

이산형 확률변수는 0이 아닌 확률 값을 가지는 셀 수 있는 실수 값입니다. 대표적인 이산형 확률변수로는 다음과 같은 분포가 있습니다:

  • 베르누이 분포: 두 가지 결과(성공/실패) 중 하나를 나타냄
  • 이항 분포: 베르누이 시행의 반복 결과
  • 다항 분포: 여러 가지 결과를 가지는 시행
  • 포아송 분포: 특정 시간이나 공간에서의 사건 발생 횟수

연속형 확률변수

연속형 확률변수는 확률이 함수 형태로 주어지며, 무한히 많은 값을 가질 수 있습니다. 주요 연속형 분포는 다음과 같습니다:

  • 균일 분포: 모든 값이 동일한 확률로 발생
  • 정규 분포: 종 모양의 대칭적인 분포
  • 지수 분포: 사건 발생 간의 시간 간격
  • t 분포: 평균이 동일한지 검정할 때 사용
  • 카이제곱 분포: 모분산 검정에 사용
  • F 분포: 두 집단 간 분산의 동일성 검정

2. 조건부 확률

조건부 확률은 한 사건이 주어졌을 때 다른 사건의 확률을 나타냅니다. 이를 수식으로 나타내면 다음과 같습니다:
[ P(A|B) = \frac{P(A \cap B)}{P(B)} ]
A와 B가 독립 사건일 경우, ( P(A \cap B) = P(A) \cdot P(B) )로 계산할 수 있습니다.

3. 추정 방법

점추정

모수(모집단의 특성)를 특정한 값으로 추정합니다.

구간추정

모수가 특정 구간에 있을 것이라고 선언하며, 이때 신뢰구간을 제시해야 합니다.

4. 가설검정

가설검정은 두 개의 가설을 비교하여 통계적 결론을 도출하는 방법입니다.

  • 귀무가설: 기본적으로 차이가 없다는 가설
  • 대립가설: 차이가 있다는 가설

P-값

P-값은 귀무가설이 참일 때, 관측된 통계량이 대립가설을 지지하는 방향으로 나올 확률을 나타냅니다. 일반적으로 P-값이 0.05 이하일 경우 귀무가설을 기각합니다.

유의수준

귀무가설이 참인데도 이를 기각할 확률입니다. 이는 제 1종 오류와 관련이 있습니다.

5. 비모수적 방법

비모수적 방법은 모집단의 분포에 대한 가정 없이 검정을 실시합니다. 순위나 부호를 이용하여 검정하며, 다음과 같은 방법들이 있습니다:

  • 부호검정
  • 윌콕슨의 순위합검정
  • 만-위트니의 U검정
  • 스피어만 순위 상관계수

6. 왜도와 상관분석

왜도

왜도는 분포의 비대칭 정도를 나타내며, 평균, 중앙값, 최빈값의 관계로 이해할 수 있습니다.

  • 평균 < 중앙값 < 최빈값: 오른쪽으로 치우침
  • 평균 = 중앙값 = 최빈값: 대칭
  • 최빈값 < 중앙값 < 평균: 왼쪽으로 치우침

상관분석

두 변수 간의 관계를 파악하는 방법으로, 상관계수의 절대값을 통해 관계의 강도를 평가합니다.

  • 절대값이 0: 전혀 상관 없음
  • 0.3 < 절대값 < 0.7: 약한 상관관계
  • 0.7 < 절대값 < 1: 강한 상관관계

상관계수는 cor() 혹은 rcorr() 함수를 사용해 계산할 수 있으며, 피어슨 상관계수와 스피어만 상관계수가 있습니다.

피어슨 상관계수  : 등간척도인 변수 , 연속형 변수 , 정규성 가정 , 두 변수간의 선형관계 크기 측정

스피어만 상관계수 : 서열척도인 변수 , 순서형 변수 , 비모수적 방법, 비선형 관계도 측정 가능