빅데이터분석기사 제 10회 필기 시험 (2025년 4월 5일 토요일) 대비 요약 정리

https://www.dataq.or.kr/www/sub/a_07.do

데이터자격검정

데이터자격검정, 빅데이터분석기사, DAP, DAsP, SQLP, SQLD, ADP, ADsP

www.dataq.or.kr

전공 지식은 작성하지 않음. (EX. 지도학습 VS 비지도학습)

암기 요인 위주로 작성함.

[1과목] 빅데이터 분석 기획

데이터의 이해

빅데이터 활용 3대 요소 : 인력, 자원, 기술
빅데이터의 3V : Volumne(규모), Variety(다양성), Velocity(속도) +++ 5V : Value(가치), Veracity(신뢰성)
암묵지와 형식지 상호작용 : 공통화 → 표현화 → 연결화 → 내면화
빅데이터 변화 : 표본 → 전수, 사전 → 사후, 질 → 양, 인과관계 → 상관관계 (’전후양상’)
데이터 탄위 : KB (2^10) < MB < GB < TB(2^40) < PB < EB < ZB <YB (PE Z Y ; 패지요)
빅데이터 조직 및 인력방안 수립 : 집중구조(전담 조직을 또 만듦. A부서에 이어 A’부서;중복 가능성有), 기능구조(직접 함. 따로 부서를 안 둠.), 분산구조(분석 조직 인력을 현업 부서에 배치)
개인정보 법제도 ; 데이터 3법 : 개인정보보호법, 정보통신망법, 신용정보법 (’개정신’)
개인정보 위기 요인과 통제방안 : 1. 사생활; 사용자 책임. 2. 결과에 대해서만 책임. 3. 분석 결과가 항상 옳은 것은 아닌, 데이터의 오용→분석 알고리즘 해석을 위한 알고리즈미스트 필요

데이터 분석 계획

분석 대상과 방법 ; 발견, 통찰, 솔루션, 최적화
우선순위
- 시급성 중요 시, (현재,쉬움) → (미래,쉬움) → (현재,어려움) → (미래,어려움) ; 쉬운것들 부터 빨리 해버리자.
- 난이도 중요 시, (현재,쉬움) → (현재,어려움) → (미래,쉬움)→ (미래,어려움)
하향식 접근 방법 : 문제에세 해답을 찾아나가기.
- 빠짐없이 문제 도출/식별
- 솔루션 보다는 가치에 초점
- 비즈니스 모델 : 지원인프라, 업무, 고객, 제품, 규제, 감사
상향식 접근 방법 : 문제 정의 자체가 어려워서, 사물을 그래로 인식하는 WHAT 관점. 비지도학습.
프로젝트 관리 지식 10가지 : 이해관계자, 범위, 통합, 의사소통, 인적자원, 시간(일정), 원가, 조달(아웃소싱), 리스크, 품질
KDD 분석 방법론 : 데이터선택 → 전처리 → 변환 → 마이닝 → 결과평가
Crisp-DM 분석 방법론 : 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가(위대한 실패 시 → ‘업무이해’로 돌아감) → 전개
SEMMA 분석 방법론 : Sample → Explore → Modify → Model → Assess
빅데이터 분석 방법론 : Planning → Preparing → Analyzing → Developing → Deploying (PPADD)
- Planning ; 위험 계획 수립 : 회피, 전이, 완화, 수용
분석 거버넌스 체계 구성요소 : 시스템, 조직, 프로세스, 마인드 육성체계, 데이터
데이터 분석 수준 진단
- 분석 준비도 : IT인프라, 문화, 데이터, 기법, 인력, 업무 파악
- 분석 성숙도 : 도입, 활용, 확산, 최적화
데이터 분석 성숙도 모델 : 준비형, 정착형(제한적으로 사용), 도입형 (분석기법 부족), 확산형
데이터 거버넌스 : 원칙, 조직, 프로세스
분석 마스터 플랜 : 단기(세부이행 계획 수립), 장기(분석 로드맵 수립)

데이터 수집 및 저장

데이터 수집 기술 : ETL(Extraction, Transformation, Load ; 3단계를 통해 DB 적재), FTP(컴퓨터간 파일 교환), API, 아파치 Sqoop(전송), 아파치 Flume(수집, 전송), 웹 크롤링
데이터 척도 구분
- 질적 척도 : 명목(집단) 척도, 순서(서열) 척도
- 양적 척도 : 등간(구간) 척도(+,-), 비율 척도(0, 사칙연산)
분산 파일 시스템
1. HDFS (하둡 분산파일 시스템) : 관리하는 마스터노드(=네임노드) + 처리하는 슬레이브 노드(=데이터노드)
2. GFS : 구글의 데이터 처리 위한 분산 파일 시스템 : 마스터, 청크 서버, 클라이언트
데이터 웨어하우스 (DW) ; 큰 DB : 비휘발성, 읽기 전용
- 여러개의 DB → ETL과정 → ODS(Operational Data Store); 임시저장
- → DW → 여러개의 데이터마트DM,DM,DM ; 소규모 데이터웨어하우스. 특정 목적을 위해 사용.

+노이즈 제거 → 평활화!

[2과목] 빅데이터 탐색

데이터 전처리

결측값(NULL/NA) 처리
이상값 처리 ; ESD(평균3배이상), 사분위수

데이터 탐색

EDA(탐색적 자료 분석) : 통계, 시각화를 통해 파악
- 저항성의 강조, 잔차 계산, 재표현, 현시성(시각화)
상관분석 : 피어슨(양적 척도, 연속형 변수, 선형관계), 스피어만(서열 척도, 순서형 변수, 선형/비선형적 관계)
첨도 : 얼마나 뾰족한지.
왜도 : 비대칭 정도 (0일 때 대칭) (평균값은 꼬리를 따라감!)
- 왜도 < 0 (왼쪽 꼬리가 김) ; 평균 < 중앙 < 최빈
- 왜도 = 0 ; 평=중=최빈
- 왜도 > 0 (오른쪽 꼬리가 김) ; 최빈 < 중앙 < 평균

통계기법 이해

이산 확률 분포 ; 값을 셀 수 있는 분포, 확률질량함수로 표현
- 이산, 베르노이, 포아송, 음이항, 이항, 다항, 기하, 초기하
연속 확률 분포 ; 값을 셀 수 없는 분포, 확률밀도함수로 표현
- 정규분포, t분포(표본이 30개보다 작은 집단에 대한 평균 검정)

[3과목 빅데이터 모델링]

분석모형 설계

분석 기법 적용

회귀분석 ; R^2 = SSR/SST (전체 중 얼마나 설명이 잘 되는가)
- 선형 회귀분석의 가정 ; 선형성, 등분산성, 정상성(정규성), 독립성
로지스틱 회귀분석 ; 종속 변수가 범주형 대상으로, 2개 집단 분류.
- Odds = P / (1-P) = 성공확률/실패확률
의사결정나무 ; 노드 내 동질성 크고, 노드 간 이질성 큼
- 분류(범주형) : 카이제곱 통계량, 지니지수, 엔트로피지수
- 회귀(연속형) : ANOVA, F-통계량, 분산감소량
인공신경망
서포트벡터머신 (SVM)
연관성분석
- 지지도=P(A&B), 신뢰도=P(A&B)/P(A), 향상도=P(A&B)/P(A)P(B)
군집분석

고급 분석 기법

[4과목] 빅데이터 결과 해석

분석모형 평가 및 개선

분석 결과 해서 및 활용

[빅데이터분석기사] 필기 공부법 및 후기

정말 감사하게도, 유튜브에 무료로 강의가 제공된다.이 강의를 듣고 개념을 정리했다.https://youtube.com/playlist?list=PLWtr7MRpQi5Dt41ZE0mT_wFIWUsTT1E7O&si=1hS6WlNqA4pAgFaH 빅데이터분석기사#빅데이터분석 #빅데

doraemin.tistory.com

[빅데이터분석기사] 합격 후기

필기를 합격하고학기 종강하고실기 시험까지 며칠이 없어서 기출 몇 회 풀고 갔습니다[빅데이터분석기사] 필기 공부법 및 후기 [빅데이터분석기사] 필기 공부법 및 후기정말 감사하게도, 유튜

doraemin.tistory.com

'IT Career Development' 카테고리의 다른 글

[KCC2025] From Curiosity to Confidence: My First KCC Experience (0)	2025.07.04
[빅데이터분석기사] 필기 공부법 및 후기 (0)	2025.04.06
[SK텔레콤 FLY AI Challenger 6기] 수료 후기 (2)	2025.03.03
[SK텔레콤 FLY AI] 저탄소 프로젝트 (0)	2025.02.11
[SK텔레콤 FLY AI Challenger 6기] 지원 및 교육 (5)	2025.01.15

DoraeMIN’s Pocket

[빅데이터분석기사] 요약 정리

[1과목] 빅데이터 분석 기획

데이터의 이해

데이터 분석 계획

데이터 수집 및 저장

[2과목] 빅데이터 탐색

데이터 전처리

데이터 탐색

통계기법 이해

[3과목 빅데이터 모델링]

분석모형 설계

분석 기법 적용

고급 분석 기법

[4과목] 빅데이터 결과 해석

분석모형 평가 및 개선

분석 결과 해서 및 활용

'IT Career Development' 카테고리의 다른 글

티스토리툴바

[빅데이터분석기사] 요약 정리

[1과목] 빅데이터 분석 기획

데이터의 이해

데이터 분석 계획

데이터 수집 및 저장

[2과목] 빅데이터 탐색

데이터 전처리

데이터 탐색

통계기법 이해

[3과목 빅데이터 모델링]

분석모형 설계

분석 기법 적용

고급 분석 기법

[4과목] 빅데이터 결과 해석

분석모형 평가 및 개선

분석 결과 해서 및 활용

'IT Career Development' 카테고리의 다른 글

관련글

티스토리툴바