Cardemy Card emy ← 로드맵 목록
IT·기술 · · 8단계

빅데이터분석기사 필기 공부법 8단계 — 합격 로드맵

빅데이터분석기사 필기 공부법을 8단계 로드맵으로 정리. 데이터 이해·분석 기초부터 수집·저장·처리 기술, 통계·확률, 전처리·EDA, 머신러닝·딥러닝, 데이터 거버넌스·윤리, 기출 실전 문제풀이까지, 빅데이터분석기사 필기 합격을 위한 과목별 단계별 학습 흐름과 카드 학습지 가이드.

START
GOAL

빅데이터분석기사 필기를 처음 본 분들의 후기를 모아 보면 거의 같은 장면에서 막힙니다. 시험장 책상 위에 OMR 카드와 빨간 펜이 놓여 있고, 1번 문제 「다음 중 정형 데이터에 해당하지 않는 것은?」을 풀고 자신만만하게 다음 장을 넘긴 순간, 「의사결정나무와 랜덤포레스트의 OOB 오차에 대한 설명으로 옳지 않은 것은?」 같은 문제가 등장합니다. 카드 앞면에 「OOB 오차」를 적어 둔 적이 있더라도, 보기 5개 중에서 어떤 표현이 함정인지 구분하지 못하면 그 자리에서 1분 이상 끌리고 시간 압박이 시작됩니다. 80문항을 120분 안에 풀어야 하는 시험에서 1분 초과는 곧 뒤쪽 통계 계산형 문제 한 개를 놓치는 거나 다름없습니다.

이 로드맵은 그 「보기 5개 중에서 함정 찾는 능력」을 만드는 8단계 카드 학습 흐름입니다. 카데미를 운영하면서 빅데이터분석기사 학습지를 설계할 때 가장 신경 쓴 부분은 「정의 외우기」가 아니라 「언제 무엇을 쓰는가」를 카드 뒷면에 함께 적게 만드는 일이었습니다. 학습자 행동 로그를 보면 「Hadoop의 정의」를 묻는 카드는 평균 회상 5초 이내에 답하지만, 「실시간 스트리밍 처리에 부적합한 것은?」 같은 비교형 카드에서는 평균 회상 18초까지 늘어집니다. 시험은 정의가 아니라 비교를 묻는 시험이라는 걸 카드 데이터가 말해 줍니다.

합격 기준은 명확합니다. 필기는 5과목 80문항 객관식, 과목당 40점 이상 + 전체 평균 60점 이상이면 합격입니다. 한 과목이라도 40점 미만이면 전체 평균 80점이어도 과락으로 떨어지기 때문에, 약한 과목 한 곳을 0점 가까이 비워 두는 「선택과 집중」 전략은 위험합니다. 이 로드맵은 5과목 모두 50~60점 라인을 일정하게 받게 만드는 균형 잡힌 학습 순서를 따라갑니다. 빅데이터분석기사 시험은 한국데이터산업진흥원(K-DATA)에서 주관하고, 매년 2회 시행되며, 응시료는 필기 17,800원·실기 40,800원 수준입니다(2026년 5월 기준, 변동 가능).

이 로드맵의 대상은 명확합니다. 비전공자·직장인·문과 출신·취준생을 포함해 처음 자격증을 준비하는 모든 학습자입니다. 카데미 학습지를 만들 때 기준점으로 삼은 페르소나는 「IT 비전공 3년차 직장인, 평일 퇴근 후 30~40분 + 주말 1시간 학습 가능, 수학은 고등학교 확률·통계까지」였습니다. 컴퓨터공학 또는 통계학 전공자라면 1·3·5단계는 빠르게 훑어도 충분하지만, 비전공자라면 8단계를 순서대로 가는 걸 권합니다. ADsP를 먼저 따고 오신 분이라면 1·2·3단계의 약 60%가 익숙할 거고, SQLD를 따고 오신 분이라면 2단계 데이터베이스 부분이 가벼울 겁니다. 그렇다고 해도 5·6단계는 새 영역이므로 시간을 충분히 잡으셔야 합니다.

이 시험을 카드 학습으로 풀어야 하는 이유는 단순합니다. 시험 출제 범위가 「개념의 정의」가 아니라 「개념 간 비교와 상황 적용」이기 때문입니다. 시나공·이기적·SD에듀 같은 시중 수험서를 처음부터 끝까지 한 번 읽고 시험장에 가면 「읽은 것 같은데 답이 안 떠오르는」 상태가 됩니다. 책 한 권은 약 500~600페이지인데, 시험에 나오는 핵심 카드 수는 600~750장 수준입니다. 책을 다시 펴서 정의를 찾는 시간보다, 카드로 능동 회상을 반복하는 시간이 시험장에서 「보기 5개 중 함정 1개」를 찾는 속도에 직접 영향을 줍니다. 카데미 학습지 데이터 기준, 카드 회상 정답률 85% 이상을 유지한 학습자는 모의고사 평균 65~72점 라인에 진입합니다.

이 글은 「합격 비결 단숨에 정리」 같은 가벼운 글이 아닙니다. 카데미 운영 관찰과 학습지 설계 노트를 정리해 8단계로 풀어 쓴 약 8~12주짜리 학습 가이드입니다. 추상적인 격려보다 「오늘 어떤 카드를 만들지」, 「어떤 함정 문제를 카드 뒷면에 적을지」 같은 작업 단위 설명에 집중했습니다. 시험을 한두 번 떨어졌던 분이라면 어디에서 새고 있었는지 단계별로 점검하는 가이드로 쓰셔도 됩니다.

STEP 1

기초 — 데이터 이해와 빅데이터 인프라 감각

1·2단계는 나머지 6단계가 작동하기 위한 공용 언어를 만드는 구간입니다. 데이터의 종류와 분석 프로세스, 그리고 빅데이터 인프라 기술의 「언제 무엇을」을 카드로 잡지 않으면 3단계 통계와 5단계 머신러닝의 보기 5개를 비교할 때 「용어가 비슷한데 정확히 뭐가 다른지 기억이 안 나는」 상태가 반복됩니다.

1·2단계 카드 학습지는 합쳐서 130~150장이 적정 분량입니다. 정의 한 줄로 끝내지 말고 카드 뒷면에 「어떤 상황에 쓰는가 / 어떤 도구가 이 영역에 속하는가」를 함께 적어 두세요.

01

기초 1 · 데이터 이해

데이터 이해와 분석 기초 체력 만들기

1단계의 목표는 데이터의 종류와 분석 프로세스 전체 그림을 카드로 외우는 것입니다. 시험 1과목에서 가장 자주 나오는 첫 문제 유형은 「다음 중 정형 데이터에 해당하지 않는 것은?」 또는 「데이터 분석 프로세스의 순서로 옳은 것은?」입니다. 정형(Structured) → RDB의 행과 열, 반정형(Semi-structured) → JSON·XML·로그 파일, 비정형 (Unstructured) → 이미지·영상·자연어 텍스트. 이 세 카드는 첫 주에 끊어 두는 게 좋습니다. 카데미 학습지 운영 데이터를 보면 가장 흔한 함정은 「엑셀 파일은 정형인가 반정형인가」 같은 경계 영역 문제입니다. 정답은 「구조가 일정하면 정형, 셀에 임의 텍스트가 들어가면 반정형 취급」으로, 카드 뒷면에 예시 한 줄을 함께 적어 두면 잊지 않습니다.

분석 프로세스는 CRISP-DM 6단계가 시험의 표준입니다. 비즈니스 이해(Business Understanding) → 데이터 이해(Data Understanding) → 데이터 준비(Data Preparation) → 모델링(Modeling) → 평가(Evaluation) → 배포(Deployment). 시험은 종종 「KDD 5단계」와 헷갈리게 출제합니다. KDD는 데이터 선택 → 전처리 → 변환 → 마이닝 → 해석/평가의 5단계로 「비즈니스 이해」와 「배포」가 빠져 있고 데이터 처리 중심입니다. 두 프로세스를 한 카드에 같이 그려 두고 「산업 적용은 CRISP-DM, 학술 데이터마이닝은 KDD」로 묶어 두면 헷갈리지 않습니다. 카드 뒷면에는 각 단계에서 산출되는 결과물을 한 줄씩 적어 두세요. 예: 비즈니스 이해 → 문제 정의 문서, 모델링 → 학습된 모델 객체.

데이터 사이언스 직무 분류 카드도 빠뜨리지 마세요. 데이터 엔지니어·데이터 분석가·데이터 사이언티스트·MLOps 엔지니어 4개 직무의 책임 영역이 자주 출제됩니다. 데이터 엔지니어는 파이프라인 구축 (ETL·Hadoop·Spark), 분석가는 BI·시각화·통계 분석(Tableau·Power BI·SQL), 사이언티스트는 모델링·실험 설계(Python·R·scikit-learn), MLOps는 모델 배포·모니터링(MLflow·Kubeflow). 카데미 학습지에서 이 카드의 오답률이 27% 정도였는데, 「ETL은 누구의 일인가」를 묻는 문제에서 사이언티스트라고 잘못 답하는 경우가 가장 많았습니다. 도구 이름을 카드 뒷면에 적어 두면 직무 구분이 즉시 잡힙니다.

마지막으로 1단계에서 데이터 산업 가치사슬과 빅데이터 3V·5V·7V 카드를 한 장 만들어 두세요. 3V는 Volume(규모)·Velocity(속도)·Variety(다양성), 5V는 여기에 Veracity(정확성)·Value(가치)가 추가되고, 7V는 Variability(변동성)·Visualization(시각화)까지 포함됩니다. 시험에서는 「다음 중 빅데이터 5V에 해당하지 않는 것은?」 형태로 자주 나옵니다. 함정 선택지로 Velocity와 Variability를 헷갈리게 배치하는 경우가 많은데, 카드 뒷면에 「Velocity = 처리 속도, Variability = 패턴 변동」 이라고 명확히 구분해 두면 1초 안에 답할 수 있습니다. 운영 관찰 기준 이 카드 회상 평균은 4.2초였습니다.

추천 학습지
[

[빅분기 필기] 데이터 이해와 분석 기초 체력 만들기

빅데이터분석기사의 전체 구조를 이해하는 단계다. 데이터의 종류, 정형·비정형 데이터 특징, 데이터 분석 프로세스, 데이터 기반 의사결정 흐름, 데이터 사이언스 개념 등을 익히며 이후 모든 과목의 기반을 만든다. 시험에서는 개념 정의를 단독으로 묻기보다 “어떤 상황에서 어떤 개념이 적절한가” 형태로 출제되므로, 데이터 흐름 전체를 연결해서 이해하는 것이 중요하다. 데이터 분석의 전체 그림을 빠르게 잡고 시험 언어에 익숙해지는 것이 핵심 목표다.

79 문항 · 카데미
02

기초 2 · 빅데이터 인프라

데이터 수집·저장·처리 기술 완전 정리

2단계는 빅데이터 인프라 기술을 「언제 무엇을 쓰는가」 기준으로 잡는 단계입니다. 핵심은 다섯 묶음입니다. (1) 분산 저장 — HDFS, (2) 분산 처리 — MapReduce·Spark, (3) NoSQL — MongoDB·Cassandra·HBase·Redis, (4) ETL/ELT — Sqoop·Flume·Kafka·Airflow, (5) 데이터 저장소 아키텍처 — 데이터 웨어하우스 vs 데이터 레이크 vs 데이터 레이크하우스. 시험은 정의를 묻기보다 「실시간 스트리밍 데이터를 수집할 때 가장 적합한 것은?」 같은 상황형으로 출제됩니다. 정답은 Kafka 또는 Flume이고, 함정은 Sqoop(RDB ↔ HDFS 배치 전송)을 끼워 넣는 경우가 많습니다.

Hadoop과 Spark의 차이는 거의 매 회차 시험에 등장합니다. Hadoop MapReduce는 디스크 기반 배치 처리, Spark는 인메모리 기반 처리로 약 10~100배 빠릅니다. Spark는 RDD·DataFrame·DataSet 세 가지 API를 제공하고, Spark Streaming·MLlib·GraphX·Spark SQL 4개의 라이브러리를 가집니다. 카드 뒷면에 「MapReduce는 Map → Shuffle → Reduce 3단계, 디스크 I/O 발생」, 「Spark는 RDD lineage로 fault tolerance 확보, 메모리 부족 시 디스크로 spill」을 적어 두면 비교 문제에서 막히지 않습니다. 카데미 학습지 운영 데이터에서 이 카드의 평균 회상은 6.8초로 비교적 빠른 편이었습니다.

NoSQL 4종은 데이터 모델별로 정리하는 게 가장 빠릅니다. Key-Value — Redis·DynamoDB, Document — MongoDB·CouchDB, Column-family — Cassandra·HBase, Graph — Neo4j. 각 모델의 적합 사용처가 시험 함정입니다. Redis는 「초저지연 캐시」, MongoDB는 「유연한 스키마 문서」, Cassandra 는 「대용량 시계열 쓰기」, Neo4j는 「관계 중심 탐색」. CAP 정리(Consistency·Availability·Partition tolerance) 카드도 같이 만들어 두세요. 분산 시스템은 셋 중 둘만 보장할 수 있고, 대부분의 NoSQL은 AP 또는 CP를 선택합니다. 카드 뒷면에 「MongoDB는 기본 CP, Cassandra는 AP」를 적어 두면 됩니다.

데이터 저장소 아키텍처는 시험 5과목 중 가장 자주 나오는 비교 영역입니다. 데이터 웨어하우스(DW)는 정형 데이터 중심·스키마 온 라이트(write 시점에 구조 정의)·ETL 사용, 대표 제품 Snowflake·Redshift·BigQuery·Teradata. 데이터 레이크는 원시 데이터 그대로 저장·스키마 온 리드(read 시점에 구조 적용)·ELT 사용, 대표 제품 S3·HDFS·Azure Data Lake Storage. 레이크하우스는 둘의 장점을 합친 형태로 Delta Lake·Iceberg·Hudi가 핵심. 시험에서는 ETL과 ELT의 순서 차이도 자주 묻습니다 — ETL은 Transform 먼저 후 Load, ELT는 Load 먼저 후 Transform입니다. 운영 메모에서 이 카드의 오답률은 31%로 통계 카드보다 높았습니다.

추천 학습지
[

[빅분기 필기] 데이터 수집·저장·처리 기술 완전 정리

빅데이터 인프라와 처리 기술을 집중적으로 학습하는 단계다. Hadoop, Spark, NoSQL, 분산처리, ETL, 데이터 웨어하우스, 데이터 레이크 같은 기술 개념을 익힌다. 시험에서는 각 기술의 목적과 차이점, 사용 상황을 비교하는 문제가 매우 자주 등장한다. 단순 기술 이름 암기가 아니라 “왜 사용하는가”, “무엇이 다른가”를 이해하는 것이 중요하다. 빅데이터 시스템 구조와 데이터 처리 흐름을 머릿속에 그릴 수 있어야 한다.

96 문항 · 카데미

STEP 2

핵심 과목 — 통계와 전처리, 합격 분기점

3·4단계는 합격이 갈리는 진짜 구간입니다. 카데미 학습자 행동 로그에서 모의고사 평균점 60점 미만에 머문 학습자의 80% 이상이 3단계 통계 또는 4단계 전처리·EDA에서 카드 회상률 70% 미만이었습니다. 시험에서는 「상황 → 어떤 통계 도구」, 「상황 → 어떤 전처리 기법」 형태로 출제되기 때문에, 정의가 아닌 사용처를 카드 뒷면에 적어 두는 게 가장 중요합니다.

3·4단계 카드 학습지는 합쳐서 180~220장 정도가 적정 분량입니다. 통계는 수식보다 「언제 무엇을 적용하는가」, 전처리는 「어떤 데이터 문제에 어떤 처리」를 카드화하세요.

03

핵심 1 · 통계와 확률

통계 기초와 확률 개념 실전 감각 익히기

3단계 통계는 카드 수가 가장 많은 단계입니다. 약 150~180장 정도를 만들게 되는데, 잘못된 접근은 「수식을 외우는 것」입니다. 시험에서는 분산·표준편차·공분산 같은 기초 통계량의 수식보다 「두 변수의 단위가 다를 때 비교용으로 쓰는 통계량은?」 → 상관계수(피어슨) 같은 상황형 문제가 훨씬 많이 나옵니다. 평균·중앙값·최빈값의 적용 차이도 자주 나오는데, 핵심은 「이상치가 많은 분포에서 대표값으로 쓸 것은? → 중앙값」, 「범주형 데이터의 대표값은? → 최빈값」입니다. 카드 뒷면에는 각 통계량의 「민감/강건」 특성을 함께 적으세요. 평균은 이상치에 민감, 중앙값은 강건, 표준편차도 민감, IQR은 강건입니다.

확률분포는 6개 정도만 카드화하면 충분합니다. 이산형 — 베르누이·이항·포아송, 연속형 — 정규(가우시안)·t-분포·카이제곱·F-분포. 각 분포가 사용되는 상황을 카드 뒷면에 한 줄로 적어 두세요. 베르누이는 0/1 한 번 시행, 이항은 0/1 n번 시행, 포아송은 단위 시간/공간의 사건 횟수, 정규는 자연·측정 오차의 표준 분포, t는 표본이 작을 때 평균 비교, 카이제곱은 범주형 적합도/독립성 검정, F는 분산 비교(ANOVA에서 사용). 시험에서는 「대기 행렬 도착 횟수 → 포아송」, 「표본 30 미만 평균 비교 → t-검정」 식으로 묻습니다. 운영 메모에서 이 카드의 평균 오답률은 33%로 만만치 않습니다.

가설검정은 빅데이터분석기사의 영원한 단골입니다. 귀무가설(H0) vs 대립가설(H1), 유의수준 α(보통 0.05), p-value, 1종 오류(α, H0가 참인데 기각), 2종 오류(β, H0가 거짓인데 채택), 검정력(1-β)의 6개 카드를 한 묶음으로 외우세요. 「p-value < 0.05면 귀무가설 기각」을 외우긴 외웠는데 정작 「귀무가설이 무엇이었는가」를 못 적는 학습자가 카데미 운영 데이터 기준 41%였습니다. 카드 뒷면에 항상 「귀무가설 예시: 두 그룹 평균이 같다, 대립가설 예시: 두 그룹 평균이 다르다」를 함께 적어 두세요. 1·2종 오류는 표로 외우는 게 가장 빠릅니다 — 실제로 시험은 표 형태 그대로 출제되는 경우가 많습니다.

회귀와 상관 영역에서는 피어슨 상관계수(선형, 등간/비율 척도) vs 스피어만 상관계수(비선형 가능, 순위 척도) 차이가 핵심입니다. 회귀계수 해석은 「독립변수 1단위 증가 시 종속변수가 얼마 변하는가」로 외우고, 결정계수 R²는 「독립변수가 종속변수 변동의 몇 %를 설명하는가」로 외우면 됩니다. 다중공선성(Multicollinearity)은 독립변수끼리 강한 상관이 있는 상태이고, VIF(분산팽창인수)가 10 이상이면 의심합니다. 카드 뒷면에 「VIF > 10 → 다중공선성 의심 → 변수 제거 또는 능형회귀(Ridge) 사용」을 적어 두세요. 운영 관찰 기준 이 카드 회상 평균은 14초로 가장 느린 편이었습니다. 빠르게 답할 수 있을 때까지 회상 사이클을 더 돌리세요.

추천 학습지
[

[빅분기 필기] 통계 기초와 확률 개념 실전 감각 익히기

필기 합격의 핵심 분기점인 통계 파트를 다루는 단계다. 평균·분산·표준편차 같은 기초 통계부터 확률분포, 가설검정, 상관분석, 회귀분석까지 시험 빈출 내용을 집중적으로 학습한다. 수식 자체보다 “어떤 분석 상황에서 사용하는가”가 중요하며, 계산형 문제와 개념형 문제가 혼합되어 출제된다. 시험에서 자주 나오는 통계 해석 패턴과 함정 선택지를 익혀야 안정적으로 점수를 확보할 수 있다.

87 문항 · 카데미
04

핵심 2 · 전처리·EDA

데이터 전처리와 탐색적 분석 마스터하기

4단계는 실무와 시험 양쪽에서 가장 활용도가 높은 단계입니다. 「전처리만 잘해도 모델 성능이 절반은 결정된다」는 말이 있을 정도로, 출제 비중도 1과목과 2과목에 분산되어 자주 나옵니다. 핵심 묶음은 넷입니다. (1) 결측치 처리, (2) 이상치 탐지·처리, (3) 스케일링과 변환, (4) 차원 축소와 변수 선택. 시험은 거의 항상 「어떤 상황에서 어떤 처리」를 묻기 때문에 카드 뒷면에 상황 예시를 함께 적는 게 핵심입니다.

결측치 처리 카드는 5장으로 끊으세요. (1) 단순 제거(완전한 행만 사용), (2) 평균/중앙값/최빈값 대체, (3) 회귀 기반 대체, (4) KNN 대체, (5) 다중 대치 (MICE). 단순 제거는 결측 비율이 5% 미만일 때만 안전하고, 그 이상이면 정보 손실이 큽니다. 평균 대체는 분산을 줄이는 부작용이 있고, KNN 대체는 거리 기반이라 스케일링을 먼저 해야 합니다. MICE는 변수 간 관계를 활용한 반복적 대체로 가장 정교하지만 계산 비용이 큽니다. 카드 뒷면에 「결측치 비율 < 5% → 제거, 5~20% → KNN/회귀 대체, > 20% → 변수 자체 제거 검토」를 적어 두세요. 시험은 종종 「평균 대체의 부작용으로 옳은 것은?」 같이 출제합니다 — 정답은 「분산 과소추정」입니다.

이상치 탐지는 4가지 방법이 출제 단골입니다. (1) IQR 방식: Q1 - 1.5×IQR 또는 Q3 + 1.5×IQR 바깥, (2) Z-score 방식: |Z| > 3, (3) 박스플롯 시각화, (4) DBSCAN/Isolation Forest 같은 모델 기반. 시험에서는 「분포가 정규에 가깝지 않을 때 사용하기 어려운 이상치 탐지 방법은?」 → Z-score(정규성 가정 필요) 가 자주 나옵니다. IQR 방식은 분포 가정이 없어서 가장 범용으로 쓰입니다. 카드 뒷면에 각 방법의 가정과 한계를 한 줄씩 적어 두세요. 이상치 처리는 제거·대체·변환(로그·박스콕스) 셋 중 하나이고, 「제거 우선이 아닌 도메인 판단 우선」이 운영 카드 한 줄입니다.

스케일링은 시험 단골 비교 카드입니다. 표준화(Standardization, Z-score) — 평균 0·표준편차 1, 이상치에 민감, 정규화(Normalization, Min-Max) — 0~1 범위, 이상치에 매우 민감, 로버스트 스케일링 — 중앙값과 IQR 사용, 이상치에 강건. 알고리즘별로 스케일링 필요성도 카드화하세요. 거리 기반(KNN·K-means·SVM·신경망)은 스케일링 필수, 트리 기반(의사결정나무·랜덤포레스트·XGBoost)은 스케일링 불필요. 카데미 학습지 운영 데이터에서 가장 자주 틀리는 카드가 「의사결정나무는 스케일링이 필요한가?」였고 오답률 38%였습니다. 정답은 「불필요」입니다. 트리는 분기점 기준이라 변수의 단위가 달라도 영향을 받지 않습니다.

차원 축소는 PCA(주성분분석)·LDA(선형판별분석)·t-SNE·UMAP 4종이 단골입니다. PCA는 분산 최대 방향으로 새 축 구성(비지도), LDA는 클래스 분리 최대 방향(지도), t-SNE/UMAP은 시각화용 비선형 축소입니다. 시험은 「클래스 레이블을 사용하는 차원 축소 기법은?」 → LDA를 묻거나, 「PCA로 주성분 2개로 95% 분산 설명 시 의미는?」 같은 해석 문제를 냅니다. 변수 선택(Feature Selection)은 필터(상관·분산 기반)·래퍼(전진·후진·단계적)·임베디드(Lasso·Ridge·트리 기반 중요도)로 3분류됩니다. EDA는 통계 요약 + 시각화(히스토그램·박스플롯·산점도·히트맵)이고, 「데이터의 분포·관계·이상치를 파악하는 단계」가 정의 카드 한 줄입니다.

추천 학습지
[

[빅분기 필기] 데이터 전처리와 탐색적 분석 마스터하기

실무와 시험 모두에서 매우 중요한 데이터 전처리 과정을 학습하는 단계다. 결측치 처리, 이상치 탐지, 정규화, 표준화, 차원 축소, 변수 선택, EDA(탐색적 데이터 분석) 흐름 등을 익힌다. 실제 시험에서는 “어떤 상황에서 어떤 전처리를 적용해야 하는가”를 판단하는 문제가 자주 나온다. 데이터 품질 문제를 해결하는 사고 흐름과 분석 전 데이터 상태를 해석하는 능력을 만드는 것이 핵심이다.

86 문항 · 카데미

STEP 3

모델링 — 머신러닝과 딥러닝, 출제 비중 최대 구간

5·6단계는 시험 출제 비중이 가장 큰 영역입니다. 머신러닝 알고리즘 비교와 모델 평가 지표는 80문항 중 약 20~25문항 정도를 차지하고, 이 두 단계의 카드 회상률이 모의고사 점수와 가장 상관관계가 높습니다. 정의가 아니라 「어떤 데이터에 어떤 알고리즘」, 「어떤 문제에 어떤 평가 지표」를 묻습니다.

5·6단계 카드 학습지는 합쳐서 200~250장이 적정 분량입니다. 알고리즘 한 개당 「장단점·과적합 경향·필요 전처리·적합 데이터」 4줄 카드 한 장으로 압축하세요.

05

모델링 1 · 머신러닝

머신러닝 알고리즘 핵심 비교 정복

5단계는 시험 출제 비중 1위 단계입니다. 알고리즘 정의보다 「어떤 데이터에 적합한가」, 「장단점은?」, 「과적합 경향은?」, 「하이퍼파라미터는?」 4축으로 카드를 만드세요. 먼저 학습 방식별 분류 카드를 만듭니다. 지도학습(Supervised) — 분류(Classification)·회귀(Regression), 비지도학습(Unsupervised) — 군집(Clustering)·차원축소(Dimensionality Reduction)·연관규칙(Association Rule), 강화학습(Reinforcement). 준지도학습(Semi-supervised)도 함정으로 자주 등장합니다 — 레이블이 일부만 있는 경우를 다루는 학습 방식입니다.

대표 알고리즘 7종을 한 묶음으로 카드화하세요. (1) 로지스틱 회귀 — 이진/다중 분류, 선형 결정경계, 해석 쉬움. (2) KNN — 비모수, 거리 기반, 스케일링 필수, K가 작으면 과적합. (3) 의사결정나무 — 해석 쉬움, 과적합 경향 큼, 스케일링 불필요. (4) 랜덤포레스트 — 배깅(Bagging) 앙상블, 의사결정나무 여러 개의 다수결, OOB 오차. (5) 그래디언트 부스팅(XGBoost·LightGBM·CatBoost) — 부스팅(Boosting) 앙상블, 잔차 학습, 강력하지만 과적합 위험. (6) SVM — 마진 최대화, 커널 트릭(RBF·다항·선형), 고차원에 강함. (7) 나이브베이즈 — 베이즈 정리, 특징 독립 가정, 텍스트 분류에 강함. 카드 뒷면에 각 알고리즘의 「대표 단점 1개」를 적어 두세요 — 시험은 단점을 자주 묻습니다.

비지도학습 알고리즘은 5종입니다. K-means — 거리 기반 군집, K 사전 지정, 엘보우 방법으로 K 결정. 계층적 군집 — 덴드로그램, 군집 수 사후 결정. DBSCAN — 밀도 기반, 노이즈 자동 분리, K 불필요. GMM — 확률 기반 군집, EM 알고리즘 사용. 연관규칙 — Apriori·FP-Growth, 지지도(Support)·신뢰도(Confidence)·향상도(Lift) 3대 지표. 시험은 「다음 중 K를 사전에 지정하지 않아도 되는 군집 알고리즘은?」 → DBSCAN/계층적 군집을 묻거나, 「향상도(Lift)가 1보다 크다는 의미는?」 → 양의 상관관계를 묻습니다. 카데미 운영 데이터에서 이 카드의 회상 평균은 11초로, 통계 카드와 비슷한 수준이었습니다.

앙상블(Ensemble)은 출제 단골입니다. 배깅(Bagging) — 부트스트랩 샘플링, 병렬 학습, 분산 감소, 대표: 랜덤포레스트. 부스팅(Boosting) — 순차 학습, 오답에 가중치, 편향 감소, 대표: AdaBoost·GBM·XGBoost. 스태킹(Stacking) — 여러 모델 예측을 메타 모델 입력으로. 카드 뒷면에 「배깅은 과적합 감소(분산↓), 부스팅은 편향 감소(편향↓)」를 적어 두세요. 과적합(Overfitting)과 과소적합(Underfitting) 카드도 같이 만듭니다 — 과적합은 훈련 정확도 ≫ 검증 정확도, 과소적합은 둘 다 낮음. 해결책으로 교차검증(K-fold), 정규화(L1 Lasso·L2 Ridge·ElasticNet), 드롭아웃(딥러닝), 조기 종료(Early Stopping)를 카드 한 장에 묶으세요.

추천 학습지
[

[빅분기 필기] 머신러닝 알고리즘 핵심 비교 정복

빅데이터분석기사 필기에서 가장 비중이 큰 머신러닝 파트를 학습하는 단계다. 지도학습·비지도학습 개념부터 의사결정나무, 랜덤포레스트, SVM, KNN, 군집분석, 나이브베이즈, 회귀모델 등을 비교 학습한다. 시험은 알고리즘 정의보다 “어떤 데이터에 적합한가”, “장단점이 무엇인가”, “과적합 여부는 어떤가” 같은 비교형 문제가 많다. 알고리즘 간 차이를 빠르게 구분하는 능력을 만드는 것이 핵심 목표다.

94 문항 · 카데미
06

모델링 2 · 딥러닝·평가

딥러닝·AI·분석 모델 평가 완성하기

6단계 전반부는 딥러닝 기초입니다. 퍼셉트론(Perceptron) — 단층은 선형 분리 가능 문제만, XOR 불가. 다층 퍼셉트론(MLP) — 은닉층 추가로 비선형 분리. 활성화 함수 — 시그모이드(Sigmoid, 출력 0~1, 기울기 소실), tanh(출력 -1~1), ReLU(음수 0·양수 그대로, 가장 많이 사용), Leaky ReLU(음수도 작은 기울기), Softmax(다중 분류 출력층). 시험에서는 「기울기 소실(Vanishing Gradient) 문제를 가장 잘 완화하는 활성화 함수는?」 → ReLU가 자주 나옵니다. 역전파(Backpropagation) 알고리즘은 출력층 오차 → 입력층 방향으로 가중치 갱신 + 경사하강법(SGD·Adam·RMSprop) 사용을 카드 한 장으로 묶으세요.

딥러닝 대표 구조 3종은 무조건 카드화입니다. (1) CNN(합성곱 신경망) — 이미지 처리 표준, 합성곱(Convolution)·풀링(Pooling)·완전연결(FC) 3층 구조, 대표 모델 LeNet·AlexNet·VGG·ResNet. (2) RNN(순환 신경망) — 시퀀스 데이터, 시간 의존성 학습, 기울기 소실 문제 → LSTM·GRU로 해결. (3) Transformer — 어텐션(Attention) 메커니즘, 병렬 처리, BERT·GPT 계열의 기반. 시험은 「이미지 분류에 가장 적합한 신경망은?」 → CNN, 「시계열 예측에 적합한 신경망은?」 → RNN/LSTM 을 묻습니다. 카데미 학습지 운영 메모에서 「LSTM의 게이트 3개는?」 카드의 오답률이 36%였습니다 — 정답은 망각(Forget)·입력(Input)·출력(Output) 게이트입니다.

6단계 후반부는 시험 핵심인 모델 평가 지표입니다. 분류 모델 평가는 혼동행렬(Confusion Matrix)에서 출발합니다. TP(True Positive)·FN(False Negative)·FP(False Positive)·TN(True Negative). 여기서 파생되는 지표가 시험 단골입니다. 정확도(Accuracy) = (TP+TN)/전체 — 클래스 불균형 시 부적합. 정밀도(Precision) = TP/(TP+FP) — 「예측 양성 중 진짜 양성」, FP가 위험할 때. 재현율(Recall) = TP/(TP+FN) — 「진짜 양성 중 잡아낸 비율」, FN 이 위험할 때. F1-score = 정밀도·재현율 조화평균 — 둘의 균형. ROC 곡선·AUC — 임곗값 무관 종합 평가.

「어떤 문제에 어떤 지표」가 시험의 핵심입니다. 암 진단 → FN(놓치면 큰일) 위험 → 재현율 우선. 스팸 필터 → FP(정상 메일 차단) 위험 → 정밀도 우선. 불균형 데이터 → 정확도 부적합 → F1 또는 AUC. 카드 앞면에 상황, 뒷면에 지표 + 그 지표의 수식을 함께 적으세요. 카데미 운영 데이터에서 이 카드 셋의 평균 회상이 9.4초로 안정적인 편이었지만, 「정밀도와 재현율 사이의 트레이드오프」 문제에서는 오답률 29%로 함정이 큽니다. 회귀 모델 평가는 MAE(평균 절대 오차)·MSE(평균 제곱 오차)·RMSE(평균 제곱근 오차)·R²(결정계수)·MAPE (평균 절대 백분율 오차) 5종을 카드 한 묶음으로. MSE는 큰 오차에 민감하고, MAE는 모든 오차를 동일 가중, MAPE는 백분율 기반이라 스케일 무관 해석 가능합니다.

추천 학습지
[

[빅분기 필기] 딥러닝·AI·분석 모델 평가 완성하기

딥러닝 기초와 모델 성능 평가를 중심으로 학습하는 단계다. 신경망 구조, 활성화 함수, CNN·RNN 기본 개념과 함께 정확도, 정밀도, 재현율, F1-score, ROC-AUC 같은 평가 지표를 학습한다. 실제 시험에서는 모델 유형과 평가 지표를 연결해서 묻는 문제가 매우 자주 출제된다. “어떤 상황에서 어떤 평가지표를 써야 하는가”를 빠르게 판단할 수 있도록 만드는 것이 중요하다.

92 문항 · 카데미

STEP 4

마무리 — 거버넌스 압축과 기출 실전

7·8단계는 마지막 2~3주의 점수 끌어올리기 구간입니다. 7단계는 짧은 시간에 점수 효율이 가장 높은 「암기형 영역」이고, 8단계는 그동안 만든 카드들을 시험 문제 패턴에 맞춰 회수하는 통합 단계입니다. 5·6단계만큼 카드 수는 많지 않지만, 이 두 단계를 비워 두면 평균 60점 라인에서 1~2점이 모자라는 일이 자주 생깁니다.

7·8단계 카드 학습지는 합쳐서 100~130장 정도가 적정 분량입니다. 거버넌스 용어는 차이 비교 위주, 기출은 함정 패턴 카드 위주로 만드세요.

07

마무리 1 · 거버넌스

데이터 거버넌스·보안·윤리 빈출 포인트 압축 정리

7단계는 시간 대비 점수 효율이 가장 높은 단계입니다. 출제 분량은 적지만 80문항 중 약 8~12문항이 이 영역에서 나오고, 카드 수는 80~100장으로 비교적 가볍습니다. 핵심 묶음은 다섯입니다. (1) 개인정보보호법과 가명·익명·비식별 처리, (2) 데이터 거버넌스 프레임워크와 조직, (3) 메타데이터와 마스터 데이터 관리(MDM), (4) 데이터 품질 6요소, (5) 데이터 윤리와 AI 윤리 원칙. 시험은 정의 차이를 미세하게 묻는 함정 문제가 많기 때문에 카드를 만들 때 「비슷한 두 용어를 같은 카드 앞뒤에 배치」하는 게 효율적입니다.

개인정보 처리는 시험에 거의 매번 나옵니다. 가명처리(Pseudonymization) — 추가 정보 없이는 개인 식별 불가, 다른 정보와 결합하면 식별 가능, 통계작성·연구 등에 동의 없이 처리 가능. 익명처리(Anonymization) — 더 이상 개인을 식별할 수 없게 완전히 변환, 복원 불가, 개인정보 아님. 비식별 조치 기법 — 가명, 총계처리, 데이터 삭제·범주화, 데이터 마스킹. 카드 뒷면에 「가명은 결합 시 재식별 가능, 익명은 결합해도 재식별 불가」를 굵게 적어 두세요. 카데미 운영 데이터 기준 이 카드의 오답률은 34%로 머신러닝 비교 다음으로 높았습니다. 함정은 「가명처리한 데이터는 개인정보가 아니다」 같은 보기인데, 정답은 「개인정보에 해당함」입니다.

데이터 거버넌스(Data Governance)는 데이터의 가용성·일관성·보안·품질을 관리하는 체계입니다. 핵심 구성 요소 3개 — 원칙(Principle)·조직(Organization)·프로세스 (Process). 데이터 관리 조직 역할도 시험에 자주 나옵니다. CDO(Chief Data Officer) — 전사 데이터 전략, 데이터 스튜어드(Data Steward) — 데이터 품질·메타데이터 관리, 데이터 오너(Data Owner) — 특정 데이터에 대한 의사결정 권한, 데이터 사용자(Data User) — 분석·활용. 카드 뒷면에 각 역할의 「의사결정 vs 실행」 구분을 적으세요. 오너는 의사결정, 스튜어드는 실행입니다.

데이터 품질은 6요소로 정리됩니다. 정확성(Accuracy)·완전성(Completeness)·일관성(Consistency)·유효성(Validity)·적시성(Timeliness)·유일성 (Uniqueness). 메타데이터는 「데이터에 대한 데이터」로, 기술 메타데이터(스키마·타입)·비즈니스 메타데이터(정의·소유자)·운영 메타데이터(접근 이력·갱신 시점) 3분류가 시험 단골입니다. MDM(Master Data Management)은 핵심 마스터 데이터(고객·상품·계정)를 단일 진실 출처로 관리하는 활동입니다. 마지막으로 AI 윤리 5원칙(인간 존엄성·공정성·투명성·책임성·안전성) 카드를 한 장 만들어 두세요 — 최근 시험에서 출제 빈도가 늘었습니다. 카데미 학습지에서 이 단계 전체 카드 회상 평균은 5.8초로 가장 빠른 편이었습니다. 점수 효율이 그만큼 높습니다.

추천 학습지
[

[빅분기 필기] 데이터 거버넌스·보안·윤리 빈출 포인트 압축 정리

고득점과 안정적인 합격을 위해 반드시 챙겨야 하는 암기형 파트를 집중 공략하는 단계다. 개인정보보호법, 데이터 거버넌스, 메타데이터, 데이터 품질관리, 데이터 보안, 개인정보 비식별화 등을 학습한다. 시험에서는 용어 차이와 정책 목적을 헷갈리게 만드는 문제가 자주 등장하므로 비교 중심 학습이 매우 중요하다. 짧은 시간 대비 점수 효율이 높은 영역을 빠르게 정리하는 단계다.

68 문항 · 카데미
08

마무리 2 · 실전 회독

기출 패턴 기반 실전 문제풀이와 합격 마무리

8단계는 카드 학습이 끝난 뒤 최근 6회분 기출을 시험 형태로 풀고 함정 패턴을 카드로 환원하는 단계입니다. 카데미 학습자 행동 로그를 보면 8단계를 건너뛴 학습자의 모의고사 평균이 8단계를 한 사이클 돈 학습자보다 평균 7~9점 낮았습니다. 단순히 「문제를 많이 풀면 된다」가 아니라, 틀린 문제를 카드 뒷면 「함정 표현」 한 줄로 옮기는 작업이 핵심입니다. 예: 「의사결정나무는 스케일링이 필요하다」 → 틀린 보기. 카드 뒷면에 「트리 기반 = 스케일링 불필요」를 적습니다.

기출 회독 사이클은 3단계로 분리하세요. 1회독 — 시간 무제한, 모르는 개념을 카드로 추가. 2회독 — 시험 시간 120분 안에 80문항 풀기, 시간 감각 만들기. 3회독 — 오답만 다시 풀기, 오답 카드 회상 정답률 95%까지 끌어올리기. 회독 횟수보다 중요한 건 「같은 함정에 두 번 빠지지 않는 것」입니다. 같은 함정에 두 번 빠진 카드는 「치명 카드」로 분류해서 시험 직전 1주의 마지막 회수 사이클에 넣으세요. 운영 메모 기준 시험 직전 회수 사이클의 치명 카드 수는 평균 30~50장 정도가 적정합니다.

시험 직전 1주는 5단계(머신러닝)·7단계(거버넌스) 카드만 회수하는 사이클로 따로 짭니다. 두 단계가 출제 빈도와 함정 빈도가 가장 높기 때문입니다. 운영 메모에서 가장 오답률이 높았던 유형은 「머신러닝 알고리즘 비교(평균 오답률 38%)」와 「데이터 거버넌스 용어 비교(평균 오답률 34%)」였습니다. 통계와 전처리는 일정 수준 이상이면 점수가 안정적이지만, 머신러닝 비교와 거버넌스 용어는 일주일만 안 봐도 회상 시간이 두 배로 늘어납니다. 시험 직전 1주는 「새 카드 추가 금지, 회수만」이 원칙입니다.

시험 당일 운영 전략도 카드 한 장에 적어 두세요. 80문항 120분 — 문항당 1분 30초 평균. 1과목부터 순차 풀이 + 막히면 즉시 별표 + 다음 문항. 1차 풀이 90분 안에 완료 + 30분 검토. 통계 계산 문제는 마지막에 묶어서 풀기 — 시간 압박 대응. 한 문항에서 2분 이상 끌리면 그 시험은 뒤쪽 5문항을 놓치고 끝납니다. 어차피 5과목 평균 60점이면 합격이라 한 문항에 매달려서 평균을 깎는 건 가장 비싼 실수입니다. 평소 모의고사를 풀 때 「2분 룰」을 몸에 익혀 두세요. 카데미 학습자 중 2분 룰을 따른 그룹의 시험 시간 내 완주율이 그렇지 않은 그룹보다 18% 높았습니다. 이 한 가지 운영 습관이 합격선 1~2점을 만들어 줍니다.

추천 학습지
[

[빅분기 필기] 기출 패턴 기반 실전 문제풀이와 합격 마무리

마지막 단계에서는 실제 시험 스타일에 적응하는 실전 훈련을 진행한다. 과목별 핵심 개념을 연결해서 문제를 푸는 연습을 하고, 자주 출제되는 함정 패턴과 오답 유도 유형을 반복 학습한다. 특히 “비슷한 개념 비교”, “모델 특징 연결”, “통계 해석”, “전처리 판단” 유형을 집중적으로 정리한다. 시험 직전 빠르게 회독할 수 있는 형태로 정리하며, 제한 시간 안에서 정답을 선택하는 감각까지 완성하는 단계다.

69 문항 · 카데미

이 8단계 학습 흐름의 핵심은 「수험서 한 권 정독」이 아니라 「카드 600~750장을 회상 가능한 상태로 유지」하는 것입니다. 빅데이터분석기사 필기는 정의 암기가 아니라 비교 문제로 점수가 갈리고, 비교 문제는 카드 뒷면에 적힌 「장단점·과적합 경향·필요 전처리·적용 도메인」 같은 4축 정보의 회상 속도가 그대로 점수가 됩니다. 카데미 학습지를 만들 때 가장 신경 쓴 건 이 4축 구조를 카드마다 일관되게 유지하는 일이었습니다.

제가 권하는 학습 페이스는 비전공자 기준 8~12주 코스입니다. 1·2단계에 2주, 3·4단계에 3주, 5·6단계에 3주, 7단계에 1주, 8단계 기출 3회독에 2주. 평일 30~40분 + 주말 1시간 + 시험 직전 1주는 회수만. 시나공·이기적·SD에듀·민쌤 같은 시중 수험서 한 권을 옆에 두고 카드가 막힐 때만 펼쳐 보는 식이 가장 빠릅니다. 책을 처음부터 끝까지 한 번 읽고 카드로 옮기는 방식보다, 카드를 먼저 만들고 막힐 때만 책을 펴는 방식이 시간을 약 30% 단축합니다.

필기에 합격하면 자연스럽게 실기 — 작업형 R/Python 코드 작성으로 넘어갑니다. 실기는 sklearn 스타일 CSV에 결측치·범주형·스케일링 처리를 적용한 뒤 RandomForest/XGBoost 모델을 만드는 패턴이 반복되는데, 이 글의 4·5단계에서 만든 카드가 코드 한 줄 한 줄의 「왜」 부분을 그대로 설명해 줍니다. 카드 학습으로 만든 「왜」가 있으면 실기 코드 암기는 절반 시간으로 끝납니다. 실기 로드맵은 별도 글에서 다룰 예정입니다.

이미 만든 학습지 외에도 카데미 공개 학습지 탐색 페이지에서 다른 학습자가 만든 빅데이터분석기사 카드들을 살펴보면 카드 설계 아이디어를 빠르게 얻을 수 있습니다. 플래시카드 학습 자체가 처음이라면 플래시카드 학습법 가이드도 함께 읽어보세요. 능동 회상·간격 반복·섞기 학습 같은 인지심리학 원리가 왜 600여 개의 시험 개념을 정확히 떠올리는 데 효과적인지 정리되어 있습니다. 다른 자격증·시험의 단계별 학습 흐름이 궁금하다면 로드맵 목록에서 ADsP·SQLD·정보처리기사 등 인접 자격증 가이드를 둘러볼 수 있습니다.

FAQ

자주 묻는 질문

Q. 비전공자도 빅데이터분석기사 필기에 합격할 수 있나요?
A.

가능합니다. 빅데이터분석기사 필기는 80문항 객관식이고, 5과목 각각 40점 이상 + 전체 평균 60점 이상이면 합격입니다.\n\n카드 학습 관점에서 보면 외워야 할 핵심 개념은 약 600~750개 수준이고, 8~12주 학습 시 평일 30~40분·주말 1시간이면 1회독이 가능합니다. 카데미 학습지 운영 메모를 보면, 비전공자가 가장 많이 막히는 구간은 3단계 통계와 5단계 머신러닝 알고리즘 비교인데, 이 두 단계 카드 회상률을 80% 이상으로 끌어올리면 합격 확률이 급격히 올라갑니다.\n\n수학 전공 지식은 필요 없고, 고등학교 수준 확률·통계 + 시그마·평균 개념 정도면 충분합니다. 직장인 후기 중에는 「하루 30분 8주 만에 1차 합격」 사례도 다수 보입니다.

Q. ADsP를 먼저 따고 도전하는 게 유리한가요?
A.

ADsP를 먼저 본 분이 분명 유리하지만 필수는 아닙니다.\n\nADsP는 「데이터분석 준전문가」 자격으로 빅데이터분석기사의 1·2·3단계(데이터 이해, 처리 기술, 통계 기초) 중 약 60% 정도가 겹칩니다. 카데미에서 두 시험을 동시에 준비하는 학습자를 관찰해 보면, ADsP 합격자가 빅데이터분석기사 필기 1회독에 걸리는 시간이 ADsP 미응시자의 약 70% 수준입니다.\n\n다만 빅데이터분석기사는 머신러닝·딥러닝·평가지표 비중이 ADsP보다 훨씬 크기 때문에, ADsP만 보고 들어오면 5·6단계에서 새로 외울 카드가 200장은 됩니다. ADsP를 안 본 상태라면 1·2단계에 일주일 더 투자한다고 생각하시면 됩니다. SQLD를 따고 오신 분이라면 2단계 데이터베이스·NoSQL 영역이 가볍게 풀립니다.