데이터 전처리
분석 가능한 형태로 데이터를 가공하는 과정
실제 분석 시간 대부분을 차지한다
Card
emy
← 탐색으로 돌아가기
실무와 시험 모두에서 매우 중요한 데이터 전처리 과정을 학습하는 단계다. 결측치 처리, 이상치 탐지, 정규화, 표준화, 차원 축소, 변수 선택, EDA(탐색적 데이터 분석) 흐름 등을 익힌다. 실제 시험에서는 “어떤 상황에서 어떤 전처리를 적용해야 하는가”를 판단하는 문제가 자주 나온다. 데이터 품질 문제를 해결하는 사고 흐름과 분석 전 데이터 상태를 해석하는 능력을 만드는 것이 핵심이다.
무료 체험 퀴즈
데이터 전처리
분석 가능한 형태로 데이터를 가공하는 과정
실제 분석 시간 대부분을 차지한다
EDA
탐색적 데이터 분석
데이터 특성과 패턴을 파악하는 과정이다
결측치
값이 비어 있는 데이터
분석 전에 반드시 확인해야 한다
결측치 제거
비어 있는 데이터를 삭제하는 방법
데이터 손실 가능성에 주의해야 한다
결측치 대체
비어 있는 값을 다른 값으로 채우는 방법
평균·중앙값 대체가 자주 사용된다
아래 문항들은 이 학습지에 수록된 카드입니다. 로그인하면 이 학습지를 내 계정으로 복사해 카드를 한 장씩 넘기며 반복 학습할 수 있고, 숙달한 카드는 완료 표시하여 다음 세션에서 제외할 수 있습니다.
데이터 전처리
EDA
결측치
결측치 제거
결측치 대체
평균 대체
중앙값 대체
최빈값 대체
이상치
이상치 제거
IQR 방식
Z-score 방식
노이즈 데이터
데이터 정제
중복 데이터
중복 제거
정규화
표준화
Min-Max 정규화
Z-score 표준화
스케일링
로그 변환
범주형 데이터
수치형 데이터
인코딩
라벨 인코딩
원핫인코딩
더미 변수
차원 축소
PCA
특성 선택
변수 선택
파생변수
피처 엔지니어링
데이터 통합
데이터 병합
샘플링
불균형 데이터
오버샘플링
언더샘플링
SMOTE
훈련 데이터
테스트 데이터
검증 데이터
데이터 분할
교차검증
K-Fold 교차검증
데이터 변환
형 변환
날짜 데이터
시계열 데이터
파싱
토큰화
불용어 제거
어간 추출
데이터 시각화
히스토그램
박스플롯
산점도
상관행렬
히트맵
왜도
첨도
분포 확인
데이터 타입 확인
EDA 목적
데이터 누락
데이터 일관성
데이터 정합성
로그 데이터 전처리
텍스트 데이터 전처리
벡터화
TF-IDF
정규표현식
데이터 라벨링
Feature Scaling
EDA 결과 해석
변수 간 관계 분석
결측치 비율 확인
이상치 시각화
범주 분포 확인
데이터 품질 관리
데이터 클렌징
파이프라인 구축
자동화 전처리
전처리 중요성