본문 바로가기
진로

[빅데이터분석기사] 요약 정리

by doraemin_dev 2025. 4. 6.

빅데이터분석기사 제 10회 필기 시험 (2025년 4월 5일 토요일) 대비 요약 정리

https://www.dataq.or.kr/www/sub/a_07.do

 

데이터자격검정

데이터자격검정, 빅데이터분석기사, DAP, DAsP, SQLP, SQLD, ADP, ADsP

www.dataq.or.kr

 

전공 지식은 작성하지 않음. (EX. 지도학습 VS 비지도학습)

암기 요인 위주로 작성함.


[1과목] 빅데이터 분석 기획

데이터의 이해

  • 빅데이터 활용 3대 요소 : 인력, 자원, 기술
  • 빅데이터의 3V : Volumne(규모), Variety(다양성), Velocity(속도) +++ 5V : Value(가치), Veracity(신뢰성)
  • 암묵지와 형식지 상호작용 : 공통화 → 표현화 → 연결화 → 내면화
  • 빅데이터 변화 : 표본 → 전수, 사전 → 사후, 질 → 양, 인과관계 → 상관관계 (’전후양상’)
  • 데이터 탄위 : KB (2^10) < MB < GB < TB(2^40) < PB < EB < ZB <YB (PE Z Y ; 패지요)
  • 빅데이터 조직 및 인력방안 수립 : 집중구조(전담 조직을 또 만듦. A부서에 이어 A’부서;중복 가능성), 기능구조(직접 함. 따로 부서를 안 둠.), 분산구조(분석 조직 인력을 현업 부서에 배치)
  • 개인정보 법제도 ; 데이터 3법 : 개인정보보호법, 정보통신망법, 신용정보법 (’개정신’)
  • 개인정보 위기 요인과 통제방안 : 1. 사생활; 사용자 책임. 2. 결과에 대해서만 책임. 3. 분석 결과가 항상 옳은 것은 아닌, 데이터의 오용→분석 알고리즘 해석을 위한 알고리즈미스트 필요

데이터 분석 계획

  • 분석 대상과 방법 ; 발견, 통찰, 솔루션, 최적화
  • 우선순위
    • 시급성 중요 시, (현재,쉬움) → (미래,쉬움) → (현재,어려움) → (미래,어려움) ; 쉬운것들 부터 빨리 해버리자.
    • 난이도 중요 시, (현재,쉬움) → (현재,어려움) → (미래,쉬움)→ (미래,어려움)
  • 하향식 접근 방법 : 문제에세 해답을 찾아나가기.
    • 빠짐없이 문제 도출/식별
    • 솔루션 보다는 가치에 초점
    • 비즈니스 모델 : 지원인프라, 업무, 고객, 제품, 규제, 감사
  • 상향식 접근 방법 : 문제 정의 자체가 어려워서, 사물을 그래로 인식하는 WHAT 관점. 비지도학습.
  • 프로젝트 관리 지식 10가지 : 이해관계자, 범위, 통합, 의사소통, 인적자원, 시간(일정), 원가, 조달(아웃소싱), 리스크, 품질
  • KDD 분석 방법론 : 데이터선택 → 전처리 → 변환 → 마이닝 → 결과평가
  • Crisp-DM 분석 방법론 : 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가(위대한 실패 시 → ‘업무이해’로 돌아감) → 전개
  • SEMMA 분석 방법론 : Sample → Explore → Modify → Model → Assess
  • 빅데이터 분석 방법론 : Planning → Preparing → Analyzing → Developing → Deploying (PPADD)
    • Planning ; 위험 계획 수립 : 회피, 전이, 완화, 수용
  • 분석 거버넌스 체계 구성요소 : 시스템, 조직, 프로세스, 마인드 육성체계, 데이터
  • 데이터 분석 수준 진단
    • 분석 준비도 : IT인프라, 문화, 데이터, 기법, 인력, 업무 파악
    • 분석 성숙도 : 도입, 활용, 확산, 최적화
  • 데이터 분석 성숙도 모델 : 준비형, 정착형(제한적으로 사용), 도입형 (분석기법 부족), 확산형
  • 데이터 거버넌스 : 원칙, 조직, 프로세스
  • 분석 마스터 플랜 : 단기(세부이행 계획 수립), 장기(분석 로드맵 수립)

데이터 수집 및 저장

  • 데이터 수집 기술 : ETL(Extraction, Transformation, Load ; 3단계를 통해 DB 적재), FTP(컴퓨터간 파일 교환), API, 아파치 Sqoop(전송), 아파치 Flume(수집, 전송), 웹 크롤링
  • 데이터 척도 구분
    • 질적 척도 : 명목(집단) 척도, 순서(서열) 척도
    • 양적 척도 : 등간(구간) 척도(+,-), 비율 척도(0, 사칙연산)
  • 분산 파일 시스템
    1. HDFS (하둡 분산파일 시스템) : 관리하는 마스터노드(=네임노드) + 처리하는 슬레이브 노드(=데이터노드)
    2. GFS : 구글의 데이터 처리 위한 분산 파일 시스템 : 마스터, 청크 서버, 클라이언트
  • 데이터 웨어하우스 (DW) ; 큰 DB : 비휘발성, 읽기 전용
    • 여러개의 DB → ETL과정 → ODS(Operational Data Store); 임시저장
    • → DW → 여러개의 데이터마트DM,DM,DM ; 소규모 데이터웨어하우스. 특정 목적을 위해 사용.

+노이즈 제거 → 평활화!

 

[2과목] 빅데이터 탐색

데이터 전처리

  • 결측값(NULL/NA) 처리
  • 이상값 처리 ; ESD(평균3배이상), 사분위수

데이터 탐색

  • EDA(탐색적 자료 분석) : 통계, 시각화를 통해 파악
    • 저항성의 강조, 잔차 계산, 재표현, 현시성(시각화)
  • 상관분석 : 피어슨(양적 척도, 연속형 변수, 선형관계), 스피어만(서열 척도, 순서형 변수, 선형/비선형적 관계)
  • 첨도 : 얼마나 뾰족한지.
  • 왜도 : 비대칭 정도 (0일 때 대칭) (평균값은 꼬리를 따라감!)
    • 왜도 < 0 (왼쪽 꼬리가 김) ; 평균 < 중앙 < 최빈
    • 왜도 = 0 ; 평=중=최빈
    • 왜도 > 0 (오른쪽 꼬리가 김) ; 최빈 < 중앙 < 평균

통계기법 이해

  • 이산 확률 분포 ; 값을 셀 수 있는 분포, 확률질량함수로 표현
    • 이산, 베르노이, 포아송, 음이항, 이항, 다항, 기하, 초기하
  • 연속 확률 분포 ; 값을 셀 수 없는 분포, 확률밀도함수로 표현
    • 정규분포, t분포(표본이 30개보다 작은 집단에 대한 평균 검정)

[3과목 빅데이터 모델링]

분석모형 설계

분석 기법 적용

  • 회귀분석 ; R^2 = SSR/SST (전체 중 얼마나 설명이 잘 되는가)
    • 선형 회귀분석의 가정 ; 선형성, 등분산성, 정상성(정규성), 독립성
  • 로지스틱 회귀분석 ; 종속 변수가 범주형 대상으로, 2개 집단 분류.
    • Odds = P / (1-P) = 성공확률/실패확률
  • 의사결정나무 ; 노드 내 동질성 크고, 노드 간 이질성 큼
    • 분류(범주형) : 카이제곱 통계량, 지니지수, 엔트로피지수
    • 회귀(연속형) : ANOVA, F-통계량, 분산감소량
  • 인공신경망
  • 서포트벡터머신 (SVM)
  • 연관성분석
    • 지지도=P(A&B), 신뢰도=P(A&B)/P(A), 향상도=P(A&B)/P(A)P(B)
  • 군집분석

고급 분석 기법

[4과목] 빅데이터 결과 해석

분석모형 평가 및 개선

분석 결과 해서 및 활용