티스토리 뷰

EMR에서 S3에 데이터를 저장할 때 S3가 데이터 일관성을 지원하지 않기 때문에 같은 위치에 동시에 데이터를 쓰게 되면 데이터가 유실될 위험이 있습니다.

 

예를 들어 s3://[bucket]/a/b/c 위치에 한번에 100개 정도의 파일을 쓰게 되면 100개의 파일이 생성되지 않고, 파일이 유실되어 99개의 파일이 생성될 수 있습니다.

 

Amazon S3 데이터 일관성 모델 참고

 

Amazon S3 소개 - Amazon Simple Storage Service

Amazon S3 소개 본 Amazon Simple Storage Service(Amazon S3) 소개는 이 웹 서비스에 대한 세부 요약 정보를 제공합니다. 이 단원을 읽으면 이 제품의 혜택과 사업에의 적용 방법을 이해하게 됩니다. Amazon S3 및 이 안내서의 개요 Amazon S3에서 제공하는 단순한 웹 서비스 인터페이스를 사용하여 웹에서 언제 어디서나 원하는 양의 데이터를 저장하고 검색할 수 있습니다. 이 안내서에서는 버킷을 만들고, 객체를 저

docs.aws.amazon.com

 

이를 방지하기 위해서 EMRFS 일관성 보기를 지원합니다. DynamoDB를 이용하여 키를 관리하여 동시에 생성되는 것을 방지합니다. 사용방법은 /etc/hadoop/conf 아래에 emrfs-site.xml파일을 생성하고 다음을 설정합니다.

<?xml version="1.0" ?>
<configuration>
    <property>
        <name>fs.s3.consistent</name>
        <value>true</value>
    </property>
    <property>
        <name>fs.s3.consistent.retryPeriodSeconds</name>
        <value>10</value>
    </property>
    <property>
        <name>fs.s3.consistent.retryCount</name>
        <value>5</value>
    </property>
    <property>
        <name>fs.s3.consistent.metadata.tableName</name>
        <value>EmrFSMetadata</value>
    </property>
</configuration>
반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28
글 보관함