ZSU

ZSU

Habe interesse für Data-Engineering. Liebe Fußball.

[Hadoop] Hadoop 개념 정리

less than 1 minute read

Hadoop 기본 개념

V1
V2
V3

V1: 기본 아키텍처 구성

MR: Job Tracker & Task Tracker이 담당
HDFS: Namenode & Datanode가 담당
Job Tracker가 병렬처리의 클러스터의 자원관리와 애플리케이션의 라이프사이클 관리를 모두하여 병목현상 발생

[HDFS]

Namenode: 블록정보를 가지고 있는 메타데이터를 관리 & Datanode 관리
Datanode: 데이터노드에서 데이터를 블록단위로 나누어서 저장

[Map Reduce]

JobTracker: 전체 작업의 진행상황을 관리하고, 자원 관리도 처리
TaskTracker: 실제 작업을 처리

V2: Job Tracker의 병목 현상 해결

클러스터의 자원관리: Resource Manager & Node Manager
애플리케이션의 라이프 사이클 관리: Application Master & Container
작업 처리: Container

[YARN]

YARN 아키텍처의 작업의 처리 단위는 컨테이너
작업에 제출되면 애플리케이션 마스터가 생성되며, 애플리케이션 마스터가 리소스 매니저에 자원을 요청하여 실제 작업을 담당하는 컨테이너를 할당받아 작업을 처리
컨테이너는 작업이 요청되면 생성되고, 작업이 완료되면 종료되기 때문에 클러스터를 효율적으로 사용할 수 있음
MR로 구현된 작업이 아니어도 컨테이너를 할당 받아서 동작할 수 있기 때문에 Spark, HBase, Storm 등 다양한 컴포넌트들을 실행할 수 있음

V3

이레이져 코딩을 도입하여 HDFS의 데이터 저장 효율성 증가
YARN 타임라인 서비스를 개선
하둡 v1부터 사용하던 쉘스크립트를 다시 작성하여 버그를 해결

ref

🔗 참고

Share on

Twitter Facebook LinkedIn

You may also enjoy

[Kubernetes] Adding On-Premise Kubernetes Context in Local PC

less than 1 minute read

[Kubernetes] Pods with YAML

less than 1 minute read

[Kubernetes] Installation

1 minute read

[Kubernetes] Docker vs container-d

1 minute read