📜 Certs
[빅데이터분석기사] 1과목 요약정리
hjwjo
2025. 8. 26. 23:00
📘 빅데이터분석기사 필기
1. 빅데이터 개념과 특징
- 빅데이터의 특징은 가트너 그룹의 3V (규모 Volume, 유형 Variety, 속도 Velocity)에 더해 최근 가치(Value)와 품질(Veracity) 요소가 추가된 5V로 정의됨.
- 규모(Volume): 데이터 양이 급격히 증가
- 유형(Variety): 데이터 종류와 근원 확대
- 속도(Velocity): 데이터 수집과 처리 속도의 고속화, 값이 실시간 변경
- 품질(Veracity): 데이터의 신뢰성·정확성·타당성 보장 필수
- 가치(Value): 대용량 데이터 안에 숨겨진 가치 발굴 중요
2. 데이터 분석
- 데이터 분석은 분석용 데이터 준비 → 텍스트 분석 → 탐색적 분석 → 모델링 → 모델 평가 및 검증 과정으로 수행됨.
3. 빅데이터 플랫폼
- 빅데이터 플랫폼은 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하며, 그 기술을 잘 사용할 수 있도록 준비된 환경을 말함.
4. 스트리밍 데이터
- 스트리밍 데이터의 경우 대용량성, 실시간성, 무중단성의 특징을 갖고 있음.
- 단, 실시간 처리 특성상 비용 효율적이지는 못함.
5. 데이터 웨어하우스
- 데이터 웨어하우스는 데이터 모델, ETL, ODS, DW Meta Data, OLAP, 데이터 마이닝, 분석 TOOL, 경영기반 솔루션으로 구성됨.
6. 분석 접근 방식
- 하향식 접근 방식: 문제가 먼저 주어지는 방식
- 혼합 방식: 동적인 환경에서 발산과 수렴 단계를 반복, 신상품 개발·전략 수립 등 중요한 의사결정 시 사용
- 하향식 접근 4단계: 문제 탐색 → 문제 정의 → 해결방안 탐색 → 타당성 평가
7. 데이터 출처
- 내부 데이터: 서비스 시스템 데이터, 네트워크 및 서버 장비 데이터, 마케팅 데이터
- 외부 데이터: 소셜 데이터, 특정 기관 데이터, M2M 데이터, Linked Open Data
8. 데이터 난이도 평가
- 난이도를 평가하는 요소:
- 데이터 획득 비용
- 데이터 가공 비용
- 데이터 저장 비용
- 데이터 분석 적용 비용
- 분석 수준
- 전략적 중요도와 목표 가치 = 시급성에 해당
9. 빅데이터 저장시스템 선정
- 분석 시 고려 요소:
- 기능성 비교분석
- 분석방식 및 환경
- 분석대상 데이터 유형
- 기존 시스템과의 연계성
10. 맵리듀스(MapReduce)
- 맵리듀스 데이터 처리 과정:
- 데이터 분할(Split)
- 맵(Map) 처리
- 셔플(Shuffle)
- 리듀스(Reduce)
11. 분석 방법론
- 분석 방법론의 구성요건:
- 상세한 절차
- 방법, 도구와 기법
- 템플릿과 산출물
- 어느 정도의 지식만 있으면 활용 가능한 수준의 난이도
- 분석작업계획 수립 절차:
- 프로젝트 소요비용 배분
- 프로젝트 작업분할구조(WBS) 수립
- 프로젝트 업무 분장 계획 및 배분
12. 데이터 분석 절차
- 문제 인식 → 연구조사 → 모형화 → 데이터 수집 → 데이터 분석 → 분석 결과 제시
13. ETL
- ETL(Extract, Transform, Load):
- Extract: 원천 데이터에서 필요한 데이터 추출
- Transform: 데이터 웨어하우스에 맞게 변환
- Load: 데이터 웨어하우스에 적재
14. 데이터셋 구성
- 신뢰성 높은 데이터 분석 모형 개발과 정확한 분석을 위해서는:
- 편향되지 않고 충분한 양의 Training Dataset, Validation Dataset, Test Dataset 필요
15. 개인정보 및 비식별화
- 개인정보의 판단 기준:
- 생존하는 개인에 관한 정보
- 개인에 관한 정보여야 함
- 정보의 내용이나 형태 제한 없음
- 개인을 알아볼 수 있는 정보
- 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보도 포함
- 비식별화: 개인으로 인식될 수 있는 가능성을 가진 데이터를 식별하기 어려운 형태로 가공하는 과정
16. 데이터 저장 방식
- 대표적인 데이터 저장 방식:
- 파일 시스템
- 관계형 데이터베이스
- 분산처리 데이터베이스
17. 데이터 유형
- 정형, 비정형, 반정형 데이터의 구분은 품질과 무관
- 비정형 데이터가 일반적으로 다양한 분석 시도에 유리
18. 데이터 기본 3법
- 빅데이터 활용을 위한 데이터 기본 3법:
- 개인정보보호법
- 정보통신망 이용촉진 및 정보보호 등에 관한 법률
- 신용정보의 이용 및 보호에 관한 법률