데이터 분석 및 모델링 관련 메모
분해시계열
시계열에 영향을 주는 일반적인 요인을 분리해 분석하는 방법:
- 경향(추세): 자료가 오르거나 내리는 추세.
- 계절요인: 고정된 주기에 따라 자료가 변하는 경우.
- 순환요인: 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 갖고 변화.
- 불규칙요인: 위 3가지로 설명할 수 없을 때 발생.
다차원척도법 (MDS)
- 객체 간 근접성을 시각화하는 통계 기법.
- 개체들을 2차원 또는 3차원 공간 상에 점으로 표현하여 집단화를 시각적으로 나타냄.
- 계량적 MDS: 비율척도, 구간척도 데이터 활용 (양적척도).
- 비계량적 MDS: 순서척도 데이터를 활용 (순서척도).
주성분분석 (PCA)
- 여러 변수를 상관관계를 이용해 소수의 주성분으로 차원 축소.
- Scree plot: 그래프의 기울기가 완만해지는 지점에서 주성분의 개수를 결정.
- 대략 85%의 분산 설명력을 갖게끔 주성분 수를 결정.
데이터마이닝
- 대용량 데이터에서 의미 있는 데이터 패턴을 파악하고 예측하여 의사결정에 활용.
- 다양한 수리 알고리즘 이용, 가설이나 가정 없이 접근.
- 다양한 데이터 마이닝 도구와 전문가의 경험이 중요.
머신러닝 기법
- 지도학습: 인공신경망, 의사결정나무, 회귀분석, 로지스틱 회귀분석, 사례기반 추론.
- 비지도학습: OLAP, 연관성 규칙 발견, 군집 분석, SOM.
데이터마이닝 추진단계
- 목적설정
- 데이터 준비
- 데이터 가공
- 기법 적용
- 검증
데이터 분할
- 구축용 (Train Data): 모델 생성을 위한 데이터 (보통 50% 사용).
- 검정용 (Validation Data): 모형의 조정에 활용 (보통 30% 사용).
- 시험용 (Test Data): 모델 성능 검증에 사용 (보통 20% 사용).
데이터 분할 방법
- 홀드아웃 방법: 주어진 데이터를 학습용과 시험용으로 분리.
- 교차확인 (k-fold): k개의 집단으로 구분하여 k-1개 집단을 학습용으로 설정.
- LOOCV: 각 샘플을 한 번씩 검증하는 방법.
- 부트스트래핑: 복원 추출을 통해 여러 샘플 생성 및 통계적 추정.
성과 분석
- 예측 결과: 실제와 예측의 일치 여부.
- TP (True Positive): 실제 참, 예측 참.
- FP (False Positive): 실제 거짓, 예측 참.
- FN (False Negative): 실제 참, 예측 거짓.
- TN (True Negative): 실제 거짓, 예측 거짓.
주요 지표
- 정확도 (Accuracy): ((TP + TN) / (TP + FP + FN + TN)) - 실제와 맞게 예측한 확률.
- 특이도 (Specificity): (TN / (TN + FP)) - 실제로 거짓인 사건을 올바르게 예측한 비율.
- 재현율 (Recall): (TP / (TP + FN)) - 실제로 참인 경우 중 올바르게 예측한 비율.
- F1 Score: (2 \cdot \text{Precision} \cdot \text{Recall} / (\text{Precision} + \text{Recall})).
ROC Curve
- 가로축: (1 - \text{특이도}), 세로축: 민감도.
- 그래프 면적이 클수록 (1에 가까울수록) 모델의 성능이 좋음.
True Positive Rate (TPR)는 세로축에,
False Positive Rate (FPR)는 가로축에 표시되어 있습니다.
그래프의 아래쪽 면적(AUC, Area Under the Curve)은 모델의 성능을 평가하는 지표로, 값이 1에 가까울수록 모델의 성능이 우수함을 나타냅니다.
'📜 Certs > ADsP' 카테고리의 다른 글
[ADsP] 자격증 시험 2주 회고 (1) | 2024.11.22 |
---|---|
ADsP 메모 - 데이터 분류 분석 (0) | 2024.10.22 |
ADsP 메모 - 상관분석과 회귀분석 (0) | 2024.10.22 |
ADsP 메모 - 확률변수와 통계 (2) | 2024.10.21 |