본문 바로가기
빅데이터/hadoop

[hadoop] TestDFSIO를 이용하여 HDFS I/O 성능 체크

by hs_seo 2019. 6. 17.

TestDFSIO는 하둡에서 HDFS의 성능을 체크하기 위해서 제공하는 기능입니다. 파일 개수와 사이즈를 지정하여 HDFS의 대역폭과 read, write 시간을 확인할 수 있습니다.  소스코드 하둡 GIT(바로가기)에서 확인할 수 있습니다. 

 

 

apache/hadoop

Apache Hadoop. Contribute to apache/hadoop development by creating an account on GitHub.

github.com

자신이 다운로드 받은 라이브러리 중에서 examples나 test jar 파일에 해당 소스코드가 들어 있습니다. jar파일은 메이븐에서 다운로드 할 수 있습니다. hadoop-mapreduce-client.jobclient*.jar 로 검색하면 됩니다.

 

mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-client-jobclient/2.10.0

 

Maven Repository: org.apache.hadoop » hadoop-mapreduce-client-jobclient » 2.10.0

 

mvnrepository.com

 

TestDFSIO 기본 옵션

기본적인 옵션은 read, write, clean 입니다. write를 이용하여 파일을 쓰고, read를 이용하여 파일을 읽고, clean을 이용하여 테스트용 파일을 정리하는 순서로 이용하면 됩니다.

  • write: 파일 쓰기
  • read: 파일 읽기
  • clean
    • 처리 결과는 resFile 옵션으로 파일을 지정하지 않으면, 실행 경로에 TestDFSIO_results.log 파일로 저장
    • nrFiles: 파일 개수
    •  size: 파일당 사이즈

 

$ hadoop jar hadoop-mapreduce-client-jobclient-3.0.0-cdh6.2.0-tests.jar TestDFSIO
19/06/18 04:19:45 INFO fs.TestDFSIO: TestDFSIO.1.8
Usage: TestDFSIO [genericOptions] -read [-random | -backward | -skip [-skipSize Size]] | 
                                  -write | -append | -truncate | 
                                  -clean [-compression codecClassName] 
                                  [-nrFiles N] [-size Size[B|KB|MB|GB|TB]] [-resFile resultFileName] [-bufferSize Bytes] [-rootDir]

TestDFSIO 사용법

기본적인 사용법과 출력 결과는 다음과 같습니다.

 

반응형