Yarn의 설정은 다음과 같다. yarn.nodemanager.resource.memory-mb- 노드의 메모리 크기 설정 yarn.nodemanager.resource.cpu-vcores- 노드의 코어 개수 설정 yarn.scheduler.minimum-allocation-mbyarn.scheduler.maximum-allocation-mb- RM이 컨테이너당 할당하는 최소, 최대 메모리 yarn.scheduler.minimum-allocation-vcoresyarn.scheduler.maximum-allocation-vcores- RM이 컨테이너당 할당하는 최소, 최대 코어 매퍼 설정은 다음과 같다 a. mapreduce.map.memory.mbb. mapreduce.map.cpu.vcoresc. m..
맵리듀스는 8단계로 나누어져 있다고 할 수 있습니다. 각 단계는 작업에 따라서 생략될 수도 있습니다. 입력 -데이터를 입력하는 단계 -텍스트, csv, gzip 형태의 데이터를 읽어서 맵으로 전달 맵(Map) -입력을 분할하여 키별로 데이터를 처리 컴바이너(Combiner) -네트워크를 타고 넘어가는 데이터를 줄이기 위하여 맵의 결과를 정리 -로컬 리듀서라고도 함 -컴바이너는 작업의 설정에 따라 없을 수도 있음 파티셔너(Partitoner) -맵의 출력 결과 키 값을 해쉬 처리하여 어떤 리듀서로 넘길지를 결정 셔플(Shuffle) -각 리듀서로 데이터 이동 정렬(Sort) -리듀서로 전달된 데이터를 키 값 기준으로 정렬 리듀서(Reduce) -리듀서로 데이터를 처리하고 결과를 저장 출력 -리듀서의 결과를..
- Total
- Today
- Yesterday
- java
- AWS
- yarn
- Tez
- 오류
- 백준
- airflow
- Python
- error
- 다이나믹
- SQL
- HIVE
- Hadoop
- 정올
- mysql
- 파이썬
- oozie
- emr
- 하둡
- hbase
- build
- Linux
- 하이브
- nodejs
- bash
- S3
- SPARK
- HDFS
- 알고리즘
- ubuntu
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |