빅데이터분석기사 제 10회 필기 시험 (2025년 4월 5일 토요일) 대비 요약 정리
https://www.dataq.or.kr/www/sub/a_07.do
데이터자격검정
데이터자격검정, 빅데이터분석기사, DAP, DAsP, SQLP, SQLD, ADP, ADsP
www.dataq.or.kr
전공 지식은 작성하지 않음. (EX. 지도학습 VS 비지도학습)
암기 요인 위주로 작성함.
[1과목] 빅데이터 분석 기획
데이터의 이해
- 빅데이터 활용 3대 요소 : 인력, 자원, 기술
- 빅데이터의 3V : Volumne(규모), Variety(다양성), Velocity(속도) +++ 5V : Value(가치), Veracity(신뢰성)
- 암묵지와 형식지 상호작용 : 공통화 → 표현화 → 연결화 → 내면화
- 빅데이터 변화 : 표본 → 전수, 사전 → 사후, 질 → 양, 인과관계 → 상관관계 (’전후양상’)
- 데이터 탄위 : KB (2^10) < MB < GB < TB(2^40) < PB < EB < ZB <YB (PE Z Y ; 패지요)
- 빅데이터 조직 및 인력방안 수립 : 집중구조(전담 조직을 또 만듦. A부서에 이어 A’부서;중복 가능성有), 기능구조(직접 함. 따로 부서를 안 둠.), 분산구조(분석 조직 인력을 현업 부서에 배치)
- 개인정보 법제도 ; 데이터 3법 : 개인정보보호법, 정보통신망법, 신용정보법 (’개정신’)
- 개인정보 위기 요인과 통제방안 : 1. 사생활; 사용자 책임. 2. 결과에 대해서만 책임. 3. 분석 결과가 항상 옳은 것은 아닌, 데이터의 오용→분석 알고리즘 해석을 위한 알고리즈미스트 필요
데이터 분석 계획
- 분석 대상과 방법 ; 발견, 통찰, 솔루션, 최적화
- 우선순위
- 시급성 중요 시, (현재,쉬움) → (미래,쉬움) → (현재,어려움) → (미래,어려움) ; 쉬운것들 부터 빨리 해버리자.
- 난이도 중요 시, (현재,쉬움) → (현재,어려움) → (미래,쉬움)→ (미래,어려움)
- 하향식 접근 방법 : 문제에세 해답을 찾아나가기.
- 빠짐없이 문제 도출/식별
- 솔루션 보다는 가치에 초점
- 비즈니스 모델 : 지원인프라, 업무, 고객, 제품, 규제, 감사
- 상향식 접근 방법 : 문제 정의 자체가 어려워서, 사물을 그래로 인식하는 WHAT 관점. 비지도학습.
- 프로젝트 관리 지식 10가지 : 이해관계자, 범위, 통합, 의사소통, 인적자원, 시간(일정), 원가, 조달(아웃소싱), 리스크, 품질
- KDD 분석 방법론 : 데이터선택 → 전처리 → 변환 → 마이닝 → 결과평가
- Crisp-DM 분석 방법론 : 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가(위대한 실패 시 → ‘업무이해’로 돌아감) → 전개
- SEMMA 분석 방법론 : Sample → Explore → Modify → Model → Assess
- 빅데이터 분석 방법론 : Planning → Preparing → Analyzing → Developing → Deploying (PPADD)
- Planning ; 위험 계획 수립 : 회피, 전이, 완화, 수용
- 분석 거버넌스 체계 구성요소 : 시스템, 조직, 프로세스, 마인드 육성체계, 데이터
- 데이터 분석 수준 진단
- 분석 준비도 : IT인프라, 문화, 데이터, 기법, 인력, 업무 파악
- 분석 성숙도 : 도입, 활용, 확산, 최적화
- 데이터 분석 성숙도 모델 : 준비형, 정착형(제한적으로 사용), 도입형 (분석기법 부족), 확산형
- 데이터 거버넌스 : 원칙, 조직, 프로세스
- 분석 마스터 플랜 : 단기(세부이행 계획 수립), 장기(분석 로드맵 수립)
데이터 수집 및 저장
- 데이터 수집 기술 : ETL(Extraction, Transformation, Load ; 3단계를 통해 DB 적재), FTP(컴퓨터간 파일 교환), API, 아파치 Sqoop(전송), 아파치 Flume(수집, 전송), 웹 크롤링
- 데이터 척도 구분
- 질적 척도 : 명목(집단) 척도, 순서(서열) 척도
- 양적 척도 : 등간(구간) 척도(+,-), 비율 척도(0, 사칙연산)
- 분산 파일 시스템
- HDFS (하둡 분산파일 시스템) : 관리하는 마스터노드(=네임노드) + 처리하는 슬레이브 노드(=데이터노드)
- GFS : 구글의 데이터 처리 위한 분산 파일 시스템 : 마스터, 청크 서버, 클라이언트
- 데이터 웨어하우스 (DW) ; 큰 DB : 비휘발성, 읽기 전용
- 여러개의 DB → ETL과정 → ODS(Operational Data Store); 임시저장
- → DW → 여러개의 데이터마트DM,DM,DM ; 소규모 데이터웨어하우스. 특정 목적을 위해 사용.
+노이즈 제거 → 평활화!
[2과목] 빅데이터 탐색
데이터 전처리
- 결측값(NULL/NA) 처리
- 이상값 처리 ; ESD(평균3배이상), 사분위수
데이터 탐색
- EDA(탐색적 자료 분석) : 통계, 시각화를 통해 파악
- 저항성의 강조, 잔차 계산, 재표현, 현시성(시각화)
- 상관분석 : 피어슨(양적 척도, 연속형 변수, 선형관계), 스피어만(서열 척도, 순서형 변수, 선형/비선형적 관계)
- 첨도 : 얼마나 뾰족한지.
- 왜도 : 비대칭 정도 (0일 때 대칭) (평균값은 꼬리를 따라감!)
- 왜도 < 0 (왼쪽 꼬리가 김) ; 평균 < 중앙 < 최빈
- 왜도 = 0 ; 평=중=최빈
- 왜도 > 0 (오른쪽 꼬리가 김) ; 최빈 < 중앙 < 평균
통계기법 이해
- 이산 확률 분포 ; 값을 셀 수 있는 분포, 확률질량함수로 표현
- 이산, 베르노이, 포아송, 음이항, 이항, 다항, 기하, 초기하
- 연속 확률 분포 ; 값을 셀 수 없는 분포, 확률밀도함수로 표현
- 정규분포, t분포(표본이 30개보다 작은 집단에 대한 평균 검정)
[3과목 빅데이터 모델링]
분석모형 설계
분석 기법 적용
- 회귀분석 ; R^2 = SSR/SST (전체 중 얼마나 설명이 잘 되는가)
- 선형 회귀분석의 가정 ; 선형성, 등분산성, 정상성(정규성), 독립성
- 로지스틱 회귀분석 ; 종속 변수가 범주형 대상으로, 2개 집단 분류.
- Odds = P / (1-P) = 성공확률/실패확률
- 의사결정나무 ; 노드 내 동질성 크고, 노드 간 이질성 큼
- 분류(범주형) : 카이제곱 통계량, 지니지수, 엔트로피지수
- 회귀(연속형) : ANOVA, F-통계량, 분산감소량
- 인공신경망
- 서포트벡터머신 (SVM)
- 연관성분석
- 지지도=P(A&B), 신뢰도=P(A&B)/P(A), 향상도=P(A&B)/P(A)P(B)
- 군집분석
고급 분석 기법
[4과목] 빅데이터 결과 해석
분석모형 평가 및 개선
분석 결과 해서 및 활용
'진로' 카테고리의 다른 글
[SK텔레콤 FLY AI Challenger 6기] 수료 후기 (0) | 2025.03.03 |
---|---|
[SK텔레콤 FLY AI] 저탄소 프로젝트 (0) | 2025.02.11 |
[SK텔레콤 FLY AI Challenger 6기] 지원 및 교육 (4) | 2025.01.15 |
[Notion 팀 프로젝트] 팀원과 무제한으로 사용하기 (0) | 2025.01.09 |
[2024 개정] SQL 자격검정 실전문제 오답 풀이 (1) | 2024.11.12 |