ADsP 메모 - 데이터 분류 분석

2024. 10. 22. 13:55·📜 Certs/ADsP

분류 분석

분류 분석은 데이터가 어떤 그룹에 속하는지 예측하는 기법으로, 지도 학습에 해당합니다. 인공 신경망, 의사결정나무, 회귀분석 등은 대부분 분류 분석에 포함됩니다.

모형 평가 방법

  • 향상도 곡선: 분류 분석의 모형 평가 방법으로, 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악합니다.

로지스틱 회귀분석

  • 반응 변수가 범주형인 경우에 적용되는 회귀분석 모형입니다.
  • exp(B)는 나머지 변수(x1...xk)가 주어질 때, xl이 한 단위 증가할 때마다 성공의 오즈가 몇 배 증가하는지를 나타내는 값입니다.
    • 오즈 = p / (1 - p) = 확률 / (1 - 확률)
    • 성공할 확률이 실패할 확률의 몇 배인지를 나타냅니다.
  • B > 0 이면 S자 모양, B < 0 이면 역 S자 모양이 됩니다.

의사결정나무

  • 의사결정 문제를 시각화하여 의사 결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 합니다.
  • 해석이 간편하며, 예측력 또는 해석력에 치중할 수 있습니다.
  • 대용량 데이터에서도 빠르며, 비정상 잡음 데이터에 민감하지 않습니다.
  • 상관성이 높은 다른 불필요한 변수에 크게 영향을 받지 않습니다. 조건이 맞지 않는 변수는 그냥 버리면 됩니다.
  • 새로운 자료에 대한 과대적합이 발생할 수 있습니다.
    • 과대적합: 너무 자세하게 만들어서 다른 자료에 적용할 때 성능이 떨어지는 현상.
    • 과소적합: 모형이 너무 단순해서 성능이 떨어지는 현상.

불순도 측도

  • 카이제곱 통계량, 지니지수, 엔트로피 지수를 사용하여 불순도를 측정합니다.

의사결정나무 알고리즘

  • CART: 가장 많이 활용되는 알고리즘. 출력 변수가 범주형일 경우 지니지수, 연속형일 경우 이진분리 사용.
  • C4.5 / C5.0: 범주형 입력변수에 대해 범주의 수만큼 분리가 일어나며, 엔트로피지수 사용.
  • CHAID: 가지치기 없이 적당한 크기에서 나무 성장을 중지하며, 입력변수는 반드시 범주형을 사용하고, 카이제곱 통계량을 사용합니다.

앙상블 분석

  • 여러 개의 예측 모형들을 만든 후 조합합니다.
  • 배깅: 여러 개의 부스트랩 자료를 생성한 후 각 자료에 예측 모형을 만든 후 결합. 가지치기를 하지 않고 최대로 성장한 의사결정나무 활용.
  • 부스팅: 각 자료에 동일한 가중치를 주는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중치를 줍니다.
  • 랜덤 포레스트: 배깅에 랜덤 과정을 추가한 방법으로, 의사 결정 트리를 추가하여 성능을 높입니다.
  • 전체 샘플의 36.8%가 샘플에 한번도 선택되지 않는 원 데이터가 발생할 수 있습니다.
  • 보팅: 다수결 원칙을 적용하여 예측합니다.

'📜 Certs > ADsP' 카테고리의 다른 글

[ADsP] 자격증 시험 2주 회고  (1) 2024.11.22
ADsP 메모 - 데이터 분석 및 모델링  (1) 2024.10.22
ADsP 메모 - 상관분석과 회귀분석  (0) 2024.10.22
ADsP 메모 - 확률변수와 통계  (2) 2024.10.21
'📜 Certs/ADsP' 카테고리의 다른 글
  • [ADsP] 자격증 시험 2주 회고
  • ADsP 메모 - 데이터 분석 및 모델링
  • ADsP 메모 - 상관분석과 회귀분석
  • ADsP 메모 - 확률변수와 통계
hjwjo
hjwjo
백엔드 및 풀스택 개발에 관심 있는 초보 개발자의 개발 블로그입니다.
  • hjwjo
    Jeongwoo's Devlog
    hjwjo
  • 전체
    오늘
    어제
    • Devlog
      • 🗄️ Backend
        • Java
        • Spring
        • JPA
        • SQL
        • JSP
        • AWS
        • GCP
        • Linux
        • GitHub
        • ML
        • Security
      • 🖥️ Frontend
        • React
        • CSS
      • 🏅 Project
        • Hackathon
        • Team Project
      • 📊 Algorithm
        • BOJ
      • 📜 Certs
        • ADsP
        • SQLD
        • 정보처리기사
      • 📖
        • JavaScript
      • 일상
        • 면접후기
  • 블로그 메뉴

    • 홈
    • Devlog
    • 태그
    • 방명록
  • 링크

    • GitHub
  • 공지사항

  • 인기 글

  • 태그

    Spring
    백엔드
    springboot
    ADsP
    jsp
    백준
    자바
    java기초
    정처기
    http
    스프링
    GCP
    AWS
    SQL
    DML
    java
    쿼리
    데이터베이스
    정보처리기사
    스프링부트
  • 최근 댓글

  • 최근 글

hjwjo
ADsP 메모 - 데이터 분류 분석
상단으로

티스토리툴바