분류 분석
분류 분석은 데이터가 어떤 그룹에 속하는지 예측하는 기법으로, 지도 학습에 해당합니다. 인공 신경망, 의사결정나무, 회귀분석 등은 대부분 분류 분석에 포함됩니다.
모형 평가 방법
- 향상도 곡선: 분류 분석의 모형 평가 방법으로, 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악합니다.
로지스틱 회귀분석
- 반응 변수가 범주형인 경우에 적용되는 회귀분석 모형입니다.
- exp(B)는 나머지 변수(x1...xk)가 주어질 때, xl이 한 단위 증가할 때마다 성공의 오즈가 몇 배 증가하는지를 나타내는 값입니다.
- 오즈 = p / (1 - p) = 확률 / (1 - 확률)
- 성공할 확률이 실패할 확률의 몇 배인지를 나타냅니다.
- B > 0 이면 S자 모양, B < 0 이면 역 S자 모양이 됩니다.
의사결정나무
- 의사결정 문제를 시각화하여 의사 결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 합니다.
- 해석이 간편하며, 예측력 또는 해석력에 치중할 수 있습니다.
- 대용량 데이터에서도 빠르며, 비정상 잡음 데이터에 민감하지 않습니다.
- 상관성이 높은 다른 불필요한 변수에 크게 영향을 받지 않습니다. 조건이 맞지 않는 변수는 그냥 버리면 됩니다.
- 새로운 자료에 대한 과대적합이 발생할 수 있습니다.
- 과대적합: 너무 자세하게 만들어서 다른 자료에 적용할 때 성능이 떨어지는 현상.
- 과소적합: 모형이 너무 단순해서 성능이 떨어지는 현상.
불순도 측도
- 카이제곱 통계량, 지니지수, 엔트로피 지수를 사용하여 불순도를 측정합니다.
의사결정나무 알고리즘
- CART: 가장 많이 활용되는 알고리즘. 출력 변수가 범주형일 경우 지니지수, 연속형일 경우 이진분리 사용.
- C4.5 / C5.0: 범주형 입력변수에 대해 범주의 수만큼 분리가 일어나며, 엔트로피지수 사용.
- CHAID: 가지치기 없이 적당한 크기에서 나무 성장을 중지하며, 입력변수는 반드시 범주형을 사용하고, 카이제곱 통계량을 사용합니다.
앙상블 분석
- 여러 개의 예측 모형들을 만든 후 조합합니다.
- 배깅: 여러 개의 부스트랩 자료를 생성한 후 각 자료에 예측 모형을 만든 후 결합. 가지치기를 하지 않고 최대로 성장한 의사결정나무 활용.
- 부스팅: 각 자료에 동일한 가중치를 주는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중치를 줍니다.
- 랜덤 포레스트: 배깅에 랜덤 과정을 추가한 방법으로, 의사 결정 트리를 추가하여 성능을 높입니다.
- 전체 샘플의 36.8%가 샘플에 한번도 선택되지 않는 원 데이터가 발생할 수 있습니다.
- 보팅: 다수결 원칙을 적용하여 예측합니다.
'📜 Certs > ADsP' 카테고리의 다른 글
[ADsP] 자격증 시험 2주 회고 (1) | 2024.11.22 |
---|---|
ADsP 메모 - 데이터 분석 및 모델링 (1) | 2024.10.22 |
ADsP 메모 - 상관분석과 회귀분석 (0) | 2024.10.22 |
ADsP 메모 - 확률변수와 통계 (2) | 2024.10.21 |