티스토리 뷰
EMR에서 S3에 데이터를 저장할 때 S3가 데이터 일관성을 지원하지 않기 때문에 같은 위치에 동시에 데이터를 쓰게 되면 데이터가 유실될 위험이 있습니다.
예를 들어 s3://[bucket]/a/b/c 위치에 한번에 100개 정도의 파일을 쓰게 되면 100개의 파일이 생성되지 않고, 파일이 유실되어 99개의 파일이 생성될 수 있습니다.
이를 방지하기 위해서 EMRFS 일관성 보기를 지원합니다. DynamoDB를 이용하여 키를 관리하여 동시에 생성되는 것을 방지합니다. 사용방법은 /etc/hadoop/conf
아래에 emrfs-site.xml
파일을 생성하고 다음을 설정합니다.
<?xml version="1.0" ?>
<configuration>
<property>
<name>fs.s3.consistent</name>
<value>true</value>
</property>
<property>
<name>fs.s3.consistent.retryPeriodSeconds</name>
<value>10</value>
</property>
<property>
<name>fs.s3.consistent.retryCount</name>
<value>5</value>
</property>
<property>
<name>fs.s3.consistent.metadata.tableName</name>
<value>EmrFSMetadata</value>
</property>
</configuration>
반응형
'AWS > EMR' 카테고리의 다른 글
[EMR] AWS EMR의 버전 선택 (0) | 2019.11.01 |
---|---|
[AWS-EMR] EMR의 하이브메타스토어 재시작 (0) | 2019.10.10 |
[AWS-EMR] EMR에서 ResourceManager 같은 서비스 목록 확인, 시작 및 종료 (0) | 2019.07.18 |
[AWS] EMR에서 S3의 데이터를 확인하는 경우 AWS 커맨드 추천 (0) | 2016.08.12 |
[AWS/EMR] AMI v4.x 대의 포트 변경 (0) | 2015.08.13 |
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- bash
- mysql
- ubuntu
- 다이나믹
- 파이썬
- airflow
- 하둡
- 오류
- java
- SPARK
- nodejs
- error
- Tez
- 알고리즘
- HDFS
- hbase
- AWS
- emr
- HIVE
- 백준
- 하이브
- build
- Python
- SQL
- yarn
- oozie
- 정올
- S3
- Linux
- Hadoop
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함