이번 포스팅에서는 R을 사용한 상관분석과 회귀분석의 주요 개념을 정리해보겠습니다.
1. 상관분석
상관분석은 두 변수 간의 관계를 평가하는 중요한 통계 기법입니다. R에서 상관분석을 수행할 때, P-값이 0.05 이하인 경우 귀무가설을 기각하고 대립가설을 채택할 수 있습니다. 이는 두 변수 간에 통계적으로 유의미한 상관관계가 존재함을 의미합니다.
상관계수
상관계수는 두 변수 간의 선형 관계의 강도를 나타내며, +1과 -1 사이의 값을 가집니다. 0에 가까울수록 관계가 약하다는 것을 나타냅니다.
2. 회귀분석
회귀분석은 하나 또는 그 이상의 독립 변수가 종속 변수에 미치는 영향을 추정하는 통계법입니다. 독립변수는 X(원인)이고, 종속변수는 Y(결과)입니다.
회귀모형의 유의성
P-값이 0.05보다 작으면 회귀식은 통계적으로 유의미하다고 볼 수 있습니다. 즉, 독립 변수가 종속 변수에 유의한 영향을 미친다는 것을 의미합니다.
선형 회귀 분석의 가정
회귀 분석을 수행하기 위해서는 다음과 같은 가정을 만족해야 합니다:
- 선형성: 입력변수와 출력변수 간의 관계는 선형입니다.
- 등분산성: 오차의 분산이 입력변수와 무관하게 일정합니다.
- 독립성: 입력변수와 오차는 관련이 없습니다.
- 비상관성: 오차들끼리 서로 상관이 없습니다.
- 정상성: 오차의 분포가 정규분포를 따른다. (Q-Q plot, Shapiro-Wilk test 등으로 확인)
정규성 확인 방법으로는 Q-Q plot, Shapiro-Wilk test, 히스토그램을 사용할 수 있습니다.
3. 단계적 변수 선택 방법
전진 선택법
상수 모형에서 시작해 중요하다고 생각되는 변수를 차례로 추가하는 방법입니다.
후진 제거법
모든 변수를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법입니다.
단계 선택법
전진 선택법으로 변수를 추가하되, 기존 변수가 영향을 미치면 다시 제거하는 방법입니다. 이 방법은 전진과 후진 접근 방식을 결합한 것입니다.
최적 회귀 방식
AIC(Akaike Information Criterion)와 BIC(Bayesian Information Criterion)를 계산하여 최소값을 가지는 모형을 선택합니다.
4. 시계열 분석
시계열 자료
시간의 흐름에 따라 관찰된 데이터를 뜻합니다. 예를 들어, 주가 데이터나 기온 데이터가 있습니다.
정상 시계열
모든 시점에 대해 일정한 평균과 분산을 가집니다. 특정한 시차의 길이를 갖는 자기공분산이 일정합니다.
비정상 시계열을 정상 시계열로 변환하는 방법
- 차분: 평균이 일정하지 않은 경우, 현재 시점의 값에서 바로 전 시점의 값을 뺍니다.
- 계절 차분: 계절성을 갖는 경우 차분을 사용합니다.
- 로그 변환: 분산이 일정하지 않은 경우, 자연로그를 취해 데이터를 변환합니다.
5. 자기회귀 모형(AR)
자기회귀 모형은 자신의 과거 값을 사용하여 현재 값을 설명하는 모형입니다. 현재 시점의 값은 과거 값들과 백색잡음(오차)의 선형 조합으로 구성됩니다. 주가나 기온 등의 시계열 데이터에 적합합니다.
6. 이동평균 모형(MA)
현재 시점의 값은 과거의 오차 항의 선형 조합으로 표현되는 모델입니다.
7. 자기회귀 누적 이동평균 모형(ARIMA)
ARIMA(P,D,Q) 모형은 다음과 같은 구성 요소로 이루어져 있습니다:
- P: 자기회귀 부분의 차수. 현재 값이 몇 개의 과거 값에 의존하는지를 나타냅니다. (예: P=2는 직전 두 개의 값)
- D: 차분 차수. 데이터를 정상화하기 위해 몇 번 차분을 수행할지를 나타냅니다. (예: D=1은 1차 차분)
- Q: 이동평균 차수. 현재 값이 몇 개의 과거 오차 항에 의존하는지를 나타냅니다. (예: Q=1은 직전 하나의 오차 항)
이처럼 ARIMA 모형은 시계열 데이터 분석에 매우 유용한 도구입니다.
'📜 Certs > ADsP' 카테고리의 다른 글
[ADsP] 자격증 시험 2주 회고 (1) | 2024.11.22 |
---|---|
ADsP 메모 - 데이터 분류 분석 (0) | 2024.10.22 |
ADsP 메모 - 데이터 분석 및 모델링 (1) | 2024.10.22 |
ADsP 메모 - 확률변수와 통계 (2) | 2024.10.21 |