본문 바로가기
AWS/EMR

[AWS-EMR] EMR 일관성 보기 설정

by hs_seo 2019. 8. 6.

EMR에서 S3에 데이터를 저장할 때 S3가 데이터 일관성을 지원하지 않기 때문에 같은 위치에 동시에 데이터를 쓰게 되면 데이터가 유실될 위험이 있습니다.

 

예를 들어 s3://[bucket]/a/b/c 위치에 한번에 100개 정도의 파일을 쓰게 되면 100개의 파일이 생성되지 않고, 파일이 유실되어 99개의 파일이 생성될 수 있습니다.

 

Amazon S3 데이터 일관성 모델 참고

 

Amazon S3 소개 - Amazon Simple Storage Service

Amazon S3 소개 본 Amazon Simple Storage Service(Amazon S3) 소개는 이 웹 서비스에 대한 세부 요약 정보를 제공합니다. 이 단원을 읽으면 이 제품의 혜택과 사업에의 적용 방법을 이해하게 됩니다. Amazon S3 및 이 안내서의 개요 Amazon S3에서 제공하는 단순한 웹 서비스 인터페이스를 사용하여 웹에서 언제 어디서나 원하는 양의 데이터를 저장하고 검색할 수 있습니다. 이 안내서에서는 버킷을 만들고, 객체를 저

docs.aws.amazon.com

 

이를 방지하기 위해서 EMRFS 일관성 보기를 지원합니다. DynamoDB를 이용하여 키를 관리하여 동시에 생성되는 것을 방지합니다. 사용방법은 /etc/hadoop/conf 아래에 emrfs-site.xml파일을 생성하고 다음을 설정합니다.

<?xml version="1.0" ?>
<configuration>
    <property>
        <name>fs.s3.consistent</name>
        <value>true</value>
    </property>
    <property>
        <name>fs.s3.consistent.retryPeriodSeconds</name>
        <value>10</value>
    </property>
    <property>
        <name>fs.s3.consistent.retryCount</name>
        <value>5</value>
    </property>
    <property>
        <name>fs.s3.consistent.metadata.tableName</name>
        <value>EmrFSMetadata</value>
    </property>
</configuration>
반응형