Hadoop
대용량 분산처리 프레임워크
여러 서버에 데이터를 분산 저장·처리한다
Card
emy
← 탐색으로 돌아가기
빅데이터 인프라와 처리 기술을 집중적으로 학습하는 단계다. Hadoop, Spark, NoSQL, 분산처리, ETL, 데이터 웨어하우스, 데이터 레이크 같은 기술 개념을 익힌다. 시험에서는 각 기술의 목적과 차이점, 사용 상황을 비교하는 문제가 매우 자주 등장한다. 단순 기술 이름 암기가 아니라 “왜 사용하는가”, “무엇이 다른가”를 이해하는 것이 중요하다. 빅데이터 시스템 구조와 데이터 처리 흐름을 머릿속에 그릴 수 있어야 한다.
무료 체험 퀴즈
Hadoop
대용량 분산처리 프레임워크
여러 서버에 데이터를 분산 저장·처리한다
HDFS
Hadoop 분산 파일 시스템
대용량 데이터를 여러 노드에 나눠 저장한다
MapReduce
분산 병렬 처리 모델
Map과 Reduce 단계로 데이터를 처리한다
Map 단계
데이터를 분할하고 가공하는 단계
병렬 처리 효율을 높인다
Reduce 단계
분산 처리 결과를 집계하는 단계
최종 결과를 생성한다
아래 문항들은 이 학습지에 수록된 카드입니다. 로그인하면 이 학습지를 내 계정으로 복사해 카드를 한 장씩 넘기며 반복 학습할 수 있고, 숙달한 카드는 완료 표시하여 다음 세션에서 제외할 수 있습니다.
Hadoop
HDFS
MapReduce
Map 단계
Reduce 단계
Spark
인메모리 처리
RDD
DataFrame
YARN
클러스터
노드
마스터 노드
슬레이브 노드
분산처리
병렬처리
스케일아웃
스케일업
NoSQL
RDBMS
MongoDB
Cassandra
HBase
Redis
키값 저장소
컬럼형 데이터베이스
문서형 데이터베이스
그래프 데이터베이스
CAP 이론
일관성
가용성
분할 허용성
데이터 레이크
데이터 웨어하우스
ETL
ELT
데이터 파이프라인
Kafka
스트리밍 처리
배치 처리
Flume
Sqoop
ZooKeeper
Hive
HQL
Pig
Pig Latin
Impala
Presto
Airflow
Oozie
클라우드 컴퓨팅
AWS
EMR
GCP
BigQuery
Azure
Data Lake
Data Mart
OLTP
OLAP
스키마
Schema-on-Write
Schema-on-Read
샤딩
복제
파티셔닝
압축
데이터 중복 제거
가용성
내결함성
로드 밸런싱
Failover
데이터 수집
크롤링
API
Open API
로그 수집
센서 데이터
데이터 적재
데이터 정합성
데이터 품질 관리
Master Data
메타데이터
데이터 카탈로그
데이터 거버넌스
데이터 아키텍처
Lambda 아키텍처
Kappa 아키텍처
데이터 보안
암호화
접근 제어
백업
재해 복구
고가용성
데이터 엔지니어링