[hadoop] HDFS 관련 주요 면접 질문

티스토리 뷰

빅데이터/hadoop

[hadoop] HDFS 관련 주요 면접 질문

hs_seo 2017. 9. 11. 14:25

-HDFS의 주요 특징은?

블록단위 파일 보관

파일을 사용자가 지정한 단위의 블록으로 분할 하여 저장
분할하여 저장하기 때문에 큰사이즈의 데이터도 저장이 가능
700G 디스크가 2개 있을때 1T파일을 저장하려고 한다면 1T 디스크를 사지 않고, 파일을 분할하여 저장 가능

분산 저장 파일 시스템

클러스터의 노드에 분산하여 저장이 가능

레플리케이션

하나의 블록을 기본 복제 단위 만큼 복사하여 저장

범용장비 사용

특정 장비가 아니라 일반적인 장비에서 사용이 가능

- HDFS의 구조

네임노드

디렉토리, 파일 정보 관리
블록과 디렉토리간 매핑 정보 관리
파일 시스템의 관리를 위애 fsimage와 edits를 이용

데이타노드

파일을 블록단위로 나누어서 저장

체크포인트 노드, 세컨더리 네임노드

fsimage와 edits를 주기적으로 체크하여 체크포인트를 생성하고 이를 이용하여 파일의 수정사항을 관리
체크포인트 노드는 fsimage를 네임노드에 업로드 하고, 세컨더리 네임노드는 업로드 하지 않는다는 차이가 있음
네임노드가 죽는다고 세컨더리 네임노드가 기능을 이어가지 않음

-파일 읽기

네임노드에서 파일이 보관된 블록 위치 요청
네임노드가 블록의 위치 반환
각 데이터 노드에 파일 블록을 요청

노드의 블록이 깨져 있으면 네임노드에 이를 통지하고 다른 블록을 확인

-파일 쓰기

네임노드에 파일정보를 전송하고, 파일의 블록을 써야할 노드 목록 요청
네임노드가 파일을 저장할 목록 반환
데이터 노드에 파일 쓰기 요청
데이터 노드간에 복제가 진행

- 블록을 보관할 노드 선택

한 랙에 동일한 복제 블록이 존재하지 않도록 설정
데이터 가용성, 읽기/쓰기 성능을 고려하여 선택

- 네임노드 데이터

메모리

파일 시스템 메타 데이터

디렉토리, 파일명, 블록, 블록-데이터 노드 매핑 정보

파일

edits: 변경 내역
fsimage: 특정시점의 스냅샷

디렉토리, 파일명, 블록, 상태 정보
블록-데이터 노드 매핑정보는 보관하지 않고 네임노드 재기동시 데이터 노드에게서 받음

- 네임노드 구동과정

파일로부터 메모리에 데이터 생성

fsimage를 읽어와서 메모리에 로딩
edits 파일을 읽어와서 메모리에 변경 내역을 반영

스냅샷 생성

현재의 메모리 상태를 fsimage로 내림
빈 edits 생성

데이터 노드로부터 매핑정보 수신

메모리에 블록-데이터 노드 매핑정보 생성

서비스 시작

- 보조 네임노드

edits는 최초 재시작할 때만 비어 있음
운영 상태에서는 edits 파일은 계속 증가하게 됨
보조 네임노드는 edits 파일을 정리하여 fsimage에 반영

하둡 HDFS 훑어보기 from beom kyun choi

- 블록, 블록 스캐너란?

블록: HDFS는 데이터를 블록 단위로 구분, 기본사이즈는 128MB
블록스캐너: 블록의 체크섬을 가지고 블록 오류 여부를 확인

데이터 노드는 주기적으로 블록 스캐너를 실행하여 블록의 체크섬을 확인하고 오류가 발생하면 수정

- Commodity hardware 란 무엇인가?

빅데이터 처리를 위해 따로 하드웨어를 구성하지 않고 범용 하드웨어르 처리 가능

- NameNode 의 기본 포트는?

네임노드의 기본포트는 하둡 설정의 hdfs-site.xml의 설정을 이용하여 변경이 가능하다.
네임노드의 기본포트는 8020이다.
hdfs://localhost:8020/ 으로 접속이 가능
http://blog.cloudera.com/blog/2009/08/hadoop-default-ports-quick-reference/

- HDFS 클러스터 내부의 데이터 복사는 어떻게 진행되는가?

하둡은 클러스터 내의 데이터 복사를 위한 DistCp 기능을 제공한다.
source 위치와 destination 위치를 제공하면 MR 을 이용하여 여러 노드에서 동시에 데이터 복사를 진행하여 준다.
hadoop distcp [source] [dest]
https://hadoop.apache.org/docs/current3/hadoop-distcp/DistCp.html

- HDFS replication factor를 갱신하는 방법은?

HDFS는 데이터의 분실 및 오류를 방지하기 위해서 하나의 데이터를 블록단위로 복사하여 저장한한다.
이때 복사하는 데이터의 개수를 replication factor 라고 한다. 기본 설정은 3이다.
이 설정값의 변경은 fs shell의 setrep 명령을 이용하여 변경이 가능하다.
hadoop fs -setrep 3 -w /path 로 설정하면 된다.
w옵션은 데이터 복사가 완료 될 때까지 대기하게 된다. 시간이 오래 걸릴 수도 있다.

- NAS와 HDFS의 차이는?

NAS는 단일 서버에서 실행되고 HDFS는 클러스터 환경에서 동작한다.
NAS는 데이터 저장의 목적이지만, HDFS는 저장된 데이터의 분석을 목적으로 한다.

- HDFS에 replication factor 를 1로 주어서 복사하면 어떻게 되는가?

HDFS는 설정된 replication factor에 맞게 파일을 복사한다.
이부분을 1로 주게 되면 파일을 복제하여 저장하지 않고 문제가 발생했을때 파일을 잃어버리게 된다.

https://www.dezyre.com/article/top-100-hadoop-interview-questions-and-answers-2017/159

저작자표시 비영리

'빅데이터 > hadoop' 카테고리의 다른 글

[hive] tez 실행중 메모리 오류 발생 (0)	2017.09.20
[하둡]HDFS의 헬스 체크 및 커럽트 블럭 삭제하기 (0)	2017.09.18
[hadoop] 빅데이터 면접 질문 (0)	2017.09.10
[hdfs] 하둡 hdfs의 휴지통 설정하기 (0)	2017.07.24
[hadoop][fsck] HDFS의 상태를 점검 할 수 있는 명령어 (0)	2017.04.10

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

개발자로 살아남기

티스토리 뷰

[hadoop] HDFS 관련 주요 면접 질문

'빅데이터 > hadoop' 카테고리의 다른 글

티스토리툴바