빅데이터/hadoop
[hadoop] TestDFSIO를 이용하여 HDFS I/O 성능 체크
hs_seo
2019. 6. 17. 16:37
TestDFSIO는 하둡에서 HDFS의 성능을 체크하기 위해서 제공하는 기능입니다. 파일 개수와 사이즈를 지정하여 HDFS의 대역폭과 read, write 시간을 확인할 수 있습니다. 소스코드 하둡 GIT(바로가기)에서 확인할 수 있습니다.
apache/hadoop
Apache Hadoop. Contribute to apache/hadoop development by creating an account on GitHub.
github.com
자신이 다운로드 받은 라이브러리 중에서 examples나 test jar 파일에 해당 소스코드가 들어 있습니다. jar파일은 메이븐에서 다운로드 할 수 있습니다. hadoop-mapreduce-client.jobclient*.jar 로 검색하면 됩니다.
mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-client-jobclient/2.10.0
Maven Repository: org.apache.hadoop » hadoop-mapreduce-client-jobclient » 2.10.0
mvnrepository.com
TestDFSIO 기본 옵션
기본적인 옵션은 read, write, clean 입니다. write를 이용하여 파일을 쓰고, read를 이용하여 파일을 읽고, clean을 이용하여 테스트용 파일을 정리하는 순서로 이용하면 됩니다.
- write: 파일 쓰기
- read: 파일 읽기
- clean
- 처리 결과는 resFile 옵션으로 파일을 지정하지 않으면, 실행 경로에 TestDFSIO_results.log 파일로 저장
- nrFiles: 파일 개수
- size: 파일당 사이즈
$ hadoop jar hadoop-mapreduce-client-jobclient-3.0.0-cdh6.2.0-tests.jar TestDFSIO 19/06/18 04:19:45 INFO fs.TestDFSIO: TestDFSIO.1.8 Usage: TestDFSIO [genericOptions] -read [-random | -backward | -skip [-skipSize Size]] | -write | -append | -truncate | -clean [-compression codecClassName] [-nrFiles N] [-size Size[B|KB|MB|GB|TB]] [-resFile resultFileName] [-bufferSize Bytes] [-rootDir] |
TestDFSIO 사용법
기본적인 사용법과 출력 결과는 다음과 같습니다.
반응형