[hadoop] distcp 사용하기

2016. 10. 26. 11:09·빅데이터/hadoop

하둡은 대규모 데이터의 이동을 위해서 맵리듀스를 이용한 DistCp를 제공한다. 


* 여러군데의 파일을 각각의 폴더 위치로 이동시키는 것은 불가

* 목적지(destination) 폴더에 파일이 존재하면 파일이 전달되지 않을 수도 있다. 

  파일 이동시 확인하도록 하자.



# distcp 명령

hadoop distcp hdfs://source hdfs://destination


# update or overwrite

# 파일 이름이 동일할 경우 update는 파일사이즈를 비교해서 옮기고, overwrite는 그냥 덮어쓴다. 

hadoop distcp -update hdfs://source hdfs://destination

hadoop distcp -overwrite hdfs://source hdfs://destination


# 여러위치의 파일을 하나의 위치로 이동, *를 이용하여 복사하는것도 가능 

hadoop distcp hdfs://source1 hdfs://soucrce2 hdfs://destination

hadoop distcp hdfs://source/*/* hdfs://destination

hadoop distcp hdfs://source/*.csv hdfs://destination


# 여러 위치를 파일에 저장하고 -f 옵션으로 하나의 위치로 이동

hadoop distco -f hdfs://source_file hdfs://destination


# -D 옵션을 이용하여 하둡 처리 옵션을 지정하는 것도 가능

hadoop distcp -Dmapred.job.queue.name=dist hdfs://source hdfs://destination


# AWS S3를 이용할 경우 키가 다를때

hadoop distcp -Dfs.s3n.awsAccessKeyId=[source_액세스키1] -Dfs.s3n.awsSecretAccessKey=[source_시크릿키1] \
                   -Dfs.s3.awsAccessKeyId=[target_액세스키2] -Dfs.s3.awsSecretAccessKey=[target_시크릿키2] \
                   -Dmapred.job.queue.name=q2 \
                   s3n://[source_url] s3://[target_url]


반응형
저작자표시 비영리 (새창열림)

'빅데이터 > hadoop' 카테고리의 다른 글

[hadoop][hive] 맵리듀스 처리시 오류가 발생해도 무시하고 진행하게 하는 프로퍼티  (0) 2016.11.24
[hadoop] 하둡 처리중 NoClassDefFoundError 오류가 발생하는 경우  (0) 2016.10.27
[hadoop] 하둡 3.0의 신규기능과 이레이져 코딩  (0) 2016.10.12
[hdfs] Non DFS used 용량  (0) 2016.08.25
[hadoop] HDFS의 유용한 명령어  (0) 2016.07.27
'빅데이터/hadoop' 카테고리의 다른 글
  • [hadoop][hive] 맵리듀스 처리시 오류가 발생해도 무시하고 진행하게 하는 프로퍼티
  • [hadoop] 하둡 처리중 NoClassDefFoundError 오류가 발생하는 경우
  • [hadoop] 하둡 3.0의 신규기능과 이레이져 코딩
  • [hdfs] Non DFS used 용량
hs_seo
hs_seo
Hello World!
    반응형
  • hs_seo
    개발자로 살아남기
    hs_seo
  • 전체
    오늘
    어제
    • 전체 (1140)
      • 개발자 (21)
        • 개발에 유의할 점 (0)
        • 면접 (5)
      • IT 소식 (5)
        • 업계 (1)
      • java (51)
        • 디자인패턴 (3)
        • apache-common (1)
      • 개념 (47)
        • 자료구조 (4)
        • 함수형사고 (8)
        • 디자인패턴 (1)
      • 데이터분석 (1)
      • python (67)
        • 코드조각 (12)
        • 라이브러리 (2)
      • 빅데이터 (418)
        • zookeeper (5)
        • hadoop (78)
        • hdfs (12)
        • hive (127)
        • hbase (16)
        • spark (40)
        • scala (4)
        • trino (3)
        • oozie (41)
        • Hue (9)
        • R (5)
        • sqoop (6)
        • flume (3)
        • elasticsearch (2)
        • airflow (16)
        • kafka (3)
        • kubernetes (10)
        • openstack (3)
        • flink (2)
        • redis (2)
      • 빅데이터 강좌 (2)
      • 알고리즘 (131)
        • 알고리즘 (1)
        • 백준 (61)
        • 정올 (41)
        • 더블릿 (5)
        • 프로그래머스 (1)
      • 프로그래밍 언어 (30)
        • go (4)
        • js (9)
        • .Net (6)
        • Jsp (1)
        • ansible (3)
        • terraform (6)
      • Tools (56)
        • docker (2)
        • macbook (6)
        • maven (3)
        • sublime (1)
      • 프레임워크 (25)
        • [JS] angularjs (2)
        • [JS] node.js (19)
        • [Java] spring (2)
        • Android (2)
      • 데이타베이스 (43)
        • SQLD (5)
        • Oracle (1)
        • MySQL (8)
        • ADsP (2)
      • 리눅스 (25)
        • Bash (61)
      • GCP (5)
      • AWS (34)
        • EC2 (2)
        • EMR (14)
      • 정보보안기사 (4)
        • 네트워크 (1)
      • 개인 (80)
        • 업무실수 (0)
        • 책 (9)
        • 교육 (3)
        • 여행 (17)
        • 영화 (12)
        • 음악 (2)
        • 피규어 (4)
        • 게임 (3)
        • 생각 (7)
        • 기타 (10)
        • 좋은글 (5)
        • 좋은 사이트 (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 미디어로그
    • 위치로그
    • 방명록
  • 링크

    • 빅데이터-하둡,하이브로 시작하기
    • 빅데이터-스칼라, 스파크로 시작하기
    • Kaggle에서 파이썬으로 데이터 분석 시작하기
    • 쉘스크립트 개발 시작하기
    • 개발자가 데이터 분석 준전문가 되기
    • 데브쿠마
  • 공지사항

  • 인기 글

  • 태그

    하둡
    emr
    Tez
    HDFS
    ubuntu
    oozie
    AWS
    Linux
    error
    Python
    SPARK
    오류
    mysql
    nodejs
    HIVE
    k8s
    알고리즘
    다이나믹
    bash
    S3
    airflow
    파이썬
    하이브
    백준
    Hadoop
    hbase
    정올
    java
    build
    yarn
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.6
hs_seo
[hadoop] distcp 사용하기
상단으로

티스토리툴바