ADSP(데이터 분석 전문 자격증) 준비를 위해 확률변수와 통계의 기초 개념을 정리해보았습니다.
1. 확률변수의 종류
이산형 확률변수
이산형 확률변수는 0이 아닌 확률 값을 가지는 셀 수 있는 실수 값입니다. 대표적인 이산형 확률변수로는 다음과 같은 분포가 있습니다:
- 베르누이 분포: 두 가지 결과(성공/실패) 중 하나를 나타냄
- 이항 분포: 베르누이 시행의 반복 결과
- 다항 분포: 여러 가지 결과를 가지는 시행
- 포아송 분포: 특정 시간이나 공간에서의 사건 발생 횟수
연속형 확률변수
연속형 확률변수는 확률이 함수 형태로 주어지며, 무한히 많은 값을 가질 수 있습니다. 주요 연속형 분포는 다음과 같습니다:
- 균일 분포: 모든 값이 동일한 확률로 발생
- 정규 분포: 종 모양의 대칭적인 분포
- 지수 분포: 사건 발생 간의 시간 간격
- t 분포: 평균이 동일한지 검정할 때 사용
- 카이제곱 분포: 모분산 검정에 사용
- F 분포: 두 집단 간 분산의 동일성 검정
2. 조건부 확률
조건부 확률은 한 사건이 주어졌을 때 다른 사건의 확률을 나타냅니다. 이를 수식으로 나타내면 다음과 같습니다:
[ P(A|B) = \frac{P(A \cap B)}{P(B)} ]
A와 B가 독립 사건일 경우, ( P(A \cap B) = P(A) \cdot P(B) )로 계산할 수 있습니다.
3. 추정 방법
점추정
모수(모집단의 특성)를 특정한 값으로 추정합니다.
구간추정
모수가 특정 구간에 있을 것이라고 선언하며, 이때 신뢰구간을 제시해야 합니다.
4. 가설검정
가설검정은 두 개의 가설을 비교하여 통계적 결론을 도출하는 방법입니다.
- 귀무가설: 기본적으로 차이가 없다는 가설
- 대립가설: 차이가 있다는 가설
P-값
P-값은 귀무가설이 참일 때, 관측된 통계량이 대립가설을 지지하는 방향으로 나올 확률을 나타냅니다. 일반적으로 P-값이 0.05 이하일 경우 귀무가설을 기각합니다.
유의수준
귀무가설이 참인데도 이를 기각할 확률입니다. 이는 제 1종 오류와 관련이 있습니다.
5. 비모수적 방법
비모수적 방법은 모집단의 분포에 대한 가정 없이 검정을 실시합니다. 순위나 부호를 이용하여 검정하며, 다음과 같은 방법들이 있습니다:
- 부호검정
- 윌콕슨의 순위합검정
- 만-위트니의 U검정
- 스피어만 순위 상관계수
6. 왜도와 상관분석
왜도
왜도는 분포의 비대칭 정도를 나타내며, 평균, 중앙값, 최빈값의 관계로 이해할 수 있습니다.
- 평균 < 중앙값 < 최빈값: 오른쪽으로 치우침
- 평균 = 중앙값 = 최빈값: 대칭
- 최빈값 < 중앙값 < 평균: 왼쪽으로 치우침
상관분석
두 변수 간의 관계를 파악하는 방법으로, 상관계수의 절대값을 통해 관계의 강도를 평가합니다.
- 절대값이 0: 전혀 상관 없음
- 0.3 < 절대값 < 0.7: 약한 상관관계
- 0.7 < 절대값 < 1: 강한 상관관계
상관계수는 cor()
혹은 rcorr()
함수를 사용해 계산할 수 있으며, 피어슨 상관계수와 스피어만 상관계수가 있습니다.
피어슨 상관계수 : 등간척도인 변수 , 연속형 변수 , 정규성 가정 , 두 변수간의 선형관계 크기 측정
스피어만 상관계수 : 서열척도인 변수 , 순서형 변수 , 비모수적 방법, 비선형 관계도 측정 가능
'📜 Certs > ADsP' 카테고리의 다른 글
[ADsP] 자격증 시험 2주 회고 (1) | 2024.11.22 |
---|---|
ADsP 메모 - 데이터 분류 분석 (0) | 2024.10.22 |
ADsP 메모 - 데이터 분석 및 모델링 (1) | 2024.10.22 |
ADsP 메모 - 상관분석과 회귀분석 (0) | 2024.10.22 |