EMR에서 S3에 데이터를 저장할 때 S3가 데이터 일관성을 지원하지 않기 때문에 같은 위치에 동시에 데이터를 쓰게 되면 데이터가 유실될 위험이 있습니다.
예를 들어 s3://[bucket]/a/b/c 위치에 한번에 100개 정도의 파일을 쓰게 되면 100개의 파일이 생성되지 않고, 파일이 유실되어 99개의 파일이 생성될 수 있습니다.
이를 방지하기 위해서 EMRFS 일관성 보기를 지원합니다. DynamoDB를 이용하여 키를 관리하여 동시에 생성되는 것을 방지합니다. 사용방법은 /etc/hadoop/conf
아래에 emrfs-site.xml
파일을 생성하고 다음을 설정합니다.
<?xml version="1.0" ?>
<configuration>
<property>
<name>fs.s3.consistent</name>
<value>true</value>
</property>
<property>
<name>fs.s3.consistent.retryPeriodSeconds</name>
<value>10</value>
</property>
<property>
<name>fs.s3.consistent.retryCount</name>
<value>5</value>
</property>
<property>
<name>fs.s3.consistent.metadata.tableName</name>
<value>EmrFSMetadata</value>
</property>
</configuration>
반응형
'AWS > EMR' 카테고리의 다른 글
[EMR] AWS EMR의 버전 선택 (0) | 2019.11.01 |
---|---|
[AWS-EMR] EMR의 하이브메타스토어 재시작 (0) | 2019.10.10 |
[AWS-EMR] EMR에서 ResourceManager 같은 서비스 목록 확인, 시작 및 종료 (0) | 2019.07.18 |
[AWS] EMR에서 S3의 데이터를 확인하는 경우 AWS 커맨드 추천 (0) | 2016.08.12 |
[AWS/EMR] AMI v4.x 대의 포트 변경 (0) | 2015.08.13 |