'빅데이터/hadoop' 카테고리의 글 목록 (2 Page)

[hadoop][yarn] Caused by: java.lang.IllegalArgumentException: Illegal capacity of 4.0 for children of queue root for label=CORE 오류 해결 YARN의 커패시티 스케줄러를 설정하면서 root큐 아래 설정된 하위큐가 사용할 수 있는 코어(CORE) 레이블의 용량(capacity)의 합이 100을 넘어서 발생하는 오류입니다. capacity-scheduler.xml에 설정된 yarn.scheduler.capacity.root.[큐이름].accessible-node-labels.CORE.capacity 값의 총합이 100을 넘지 않도록 수정하고 yarn rmadmin -refreshQueues를 입력하여 큐 설정을 변경합니다. $ yarn rmadmin -refreshQueues 19/10/31 04:20:14 INFO client.RMProxy: Connecting to ResourceManager at /10.11.60.235:8033 refr.. 2019. 10. 31.

[hadoop-yarn] YARN의 클러스터 사용량 확인 YARN은 REST API를 이용하여 스케줄러의 클러스터 사용량을 확인할 수 있습니다. 이 API를 이용하여 현재 클러스터가 어느정도의 메모리를 사용하고 있는지를 사용량(퍼센트)으로 확인하는 스크립트를 알아보겠습니다. https://118k.tistory.com/725 [hadoop] YARN REST API를 이용하여 클러스터 사용량 확인 하기 YARN은 CLI 명령어와 웹UI, REST API를 제공합니다. 이중에서 클러스터의 사용량은 모니터링 툴을 이용해서 확인할 수 있지만, 모니터링 툴을 이용할 수 없는 상황에서는 REST API를 이용하여 확인할 수 있습니다... 118k.tistory.com 클러스터의 메모리 사용량 지표는 다음과 같습니다. totalMB: 전체 메모리 reservedMB: 사.. 2019. 8. 5.

[hadoop-hdfs] HDFS의 사용 가능한 용량 확인 HDFS의 용량을 확인하는 방법을 알아보겠습니다. hdfs dfsadmin -report 명령을 이용하면 현재 HDFS의 용량과 전체 노드의 용량 상태를 확인할 수 있습니다. 아래는 Non DFS Used의 용량이 많아서 실제 저장에 이용할 수 있는 용량이 많이 줄었기 때문에 이를 확인해서 처리하는 작업이 필요한 상황입니다. $ hdfs dfsadmin -report # 클러스터 전체의 상황 # 사용할 수 있게 설정된 용량은 5.88T # 현재 사용 가능한 용량은 4.27T = 5.88T - (Non DFS Used * 39) # 비어 있는 용량은 3.22T # 사용중인 용량은 1.05T Configured Capacity: 6466620506112 (5.88 TB) Present Capacity: 46.. 2019. 7. 23.

[hadoop] EMR에서 S3에 폴더 생성시 Failed to parse XML document 오류 처리 AWS EMR에서 EMR FS 를 이용해서 버켓에 디렉토리를 생성할 때 XML 파싱 오류가 발생하는 경우가 있습니다. 이는 경로 중간에 특수문자나 깨진 문자가 있어서 파싱오류가 발생하기 때문입니다. s3://[]/a/b/c 디렉토리를 생성할 때, s3://[]/a&c/ 와 같은 형식으로 중간에 특수 문자가 들어가면 XML 파싱을 하지 못해서 오류가 발생합니다. 해당 폴더를 삭제하거나, 수정해야 합니다. $ hadoop fs -mkdir s3://[]/a/b/c mkdir: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.AmazonClientException: Failed to parse XML document with handler class com.amazon... 2019. 7. 8.

[hadoop] YARN 클러스터 사용량 모니터링 스크립트 YARN의 클러스터의 현재 사용량을 터미널에서 확인하기 위한 스크립트입니다. curl, jq, tput, trap 명령어를 이용하여 작성하였습니다. 스크립트 실행후 Ctrl + C를 입력하면 종료합니다. curl 명령으로 클러스터 metric 정보 확인 jq 명령으로 JSON 파싱하여 정보 확인 tput 명령으로 정보를 화면에 표시 trap 명령으로 처리 종료시 정리 2019. 7. 3.

[hadoop] The ownership on the staging director /tmp/hadoop-yarn/staging/root/.staging is not as expected 오류 처리 하둡 맵리듀스 잡을 실행할 때 발생하는 이 오류는 AM의 staging 디렉토리를 변경하여 주면 됩니다. yarn.app.mapreduce.am.staging-dir /tmp/hadoop-yarn/staging The staging dir used while submitting jobs. 이 설정값을 다른 값으로 변경하고 실행하면 회피할 수 있습니다. 19/06/18 01:28:12 INFO client.RMProxy: Connecting to ResourceManager at host:8032 java.io.IOException: The ownership on the staging directory /tmp/hadoop-yarn/staging/root/.staging is not as expected... 2019. 6. 18.

[hadoop] TestDFSIO를 이용하여 HDFS I/O 성능 체크 TestDFSIO는 하둡에서 HDFS의 성능을 체크하기 위해서 제공하는 기능입니다. 파일 개수와 사이즈를 지정하여 HDFS의 대역폭과 read, write 시간을 확인할 수 있습니다. 소스코드 하둡 GIT(바로가기)에서 확인할 수 있습니다. apache/hadoop Apache Hadoop. Contribute to apache/hadoop development by creating an account on GitHub. github.com 자신이 다운로드 받은 라이브러리 중에서 examples나 test jar 파일에 해당 소스코드가 들어 있습니다. jar파일은 메이븐에서 다운로드 할 수 있습니다. hadoop-mapreduce-client.jobclient*.jar 로 검색하면 됩니다. mvnrepo.. 2019. 6. 17.

[hadoop] 리소스매니저 UI의 Memory Reserved 리소스 매니저 UI의 클러스터 메트릭 부분을 보면 Memory Reserved라는 항목이 있습니다.이 부분은 YARN이 동작할 때 큰 크기의 메모리를 요구하는 작업이 있을 때 동작을 보장하기 위해서 예약해 두는 항목입니다. 예를 들어 작업 A는 1G의 메모리, 작업 B는 2G의 메모리를 할당 한다고 하겠습니다. 작업 A가 먼저 실행되어 클러스터 전체의 메모리를 할당 받고 작업이 종료될 때 마다 1G의 메모리 여유가 발생하고, 작업 B는 메모리가 맞지 않아서 작업을 진행하지 못하여 작업 A만 계속 처리하게 됩니다. 그러면 작업B는 작업A가 종료될 때까지 계속 대기해야 하는 기아(starving) 상태가 됩니다. 이를 방지하기 위해서 작업B에 할당할 수 있게 메모리의 여유분을 할당하지 못하게 막아두는 것이 .. 2019. 5. 15.

[hadoop] 하둡 오존(ozone) - 분산 객체 저장소(Object Storage) 오존(Ozone)은 하둡을 위한 확장성(scalable) 있는 분산 객체 저장소(distributed object store)입니다. 2019년 5월 7일에 0.4.0-알파버전이 발표되었습니다. 스파크, 하이브, YARN은 별도의 수정 없이 오존을 이용할 수 있습니다. 오존은 자바 라이브러리와 CLI환경을 지원합니다. 자바 라이브러리는 RPC와 REST 프로토콜을 지원하고 있습니다. 오존 구성 오존은 볼륨, 버켓, 키로 구성됩니다. 볼륨은 사용자 계정과 유사합니다. 관리자만 볼륨을 생성하거나 삭제할 수 있습니다. 버켓은 디렉터리와 유사합니다. 버켓은 여러 개의 키를 저장할 수 있지만, 다른 버켓은 저장할 수 없습니다. 키는 파일과 유사합니다. 버켓은 여러 개의 키를 저장할 수 있습니다. 오즌은 REST .. 2019. 5. 8.

[hadoop] hdfs namenode 실행중 Invalid URI for NameNode address (check fs.defaultFS): 오류 처리 HDFS의 네임노드 실행중 다음오류가 발생하면 hdfs-site.xml에 fs.defaultFS설정을 하지 않았거나 오류가 발생해서 입니다. 19/04/16 21:52:23 ERROR namenode.NameNode: Failed to start namenode. java.lang.IllegalArgumentException: Invalid URI for NameNode address (check fs.defaultFS): file:/// has no authority. at org.apache.hadoop.hdfs.DFSUtilClient.getNNAddress(DFSUtilClient.java:626) at org.apache.hadoop.hdfs.DFSUtilClient.getNNAddressChe.. 2019. 4. 16.

[hadoop] 커패시티 스케줄러 설정중 오류 수정 커패시티 스케줄러는 capacity-scheduler.xml 파일을 수정하고, 해당 파일을 리로드하게 하면 설정을 변경할 수 있습니다. 설정중 발생한 다음의 오류는 각 큐들의 용량(capacity)의 총합이 100이 되지 않아서 발생하는 오류입니다. 큐의 용량을 확인하여 모든 큐의 합이 100이 되도록 설정해야 합니다. Caused by: java.lang.IllegalArgumentException: Illegal capacity of 0.91 for children of queue root at org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.ParentQueue.setChildQueues(ParentQueue.java:143) at.. 2019. 4. 12.

[hadoop] YARN REST API를 이용하여 클러스터 사용량 확인 하기 YARN은 CLI 명령어와 웹UI, REST API를 제공합니다. 이중에서 클러스터의 사용량은 모니터링 툴을 이용해서 확인할 수 있지만,모니터링 툴을 이용할 수 없는 상황에서는 REST API를 이용하여 확인할 수 있습니다. 상세한 사용법은 REST API 사용 매뉴얼을 확인하시면 됩니다. 여기서는 클러스터의 메모리 사용량을 REST API로 확인해 보도록 하겠습니다. 클러스터의 메모리 사용량은 메트릭(Metric)으로 확인할 수 있습니다. 메트릭 REST API 주소는 다음과 같습니다. 이 주소를 파이썬을 이용한 스크립트로 호출하면 다음과 같은 결과를 확인할 수 있습니다. http:///ws/v1/cluster/metrics 다음의 스크립트는 메트릭 API를 호출합니다. 호출 헤더에 json 형태의 반.. 2019. 1. 7.

[hdfs] HDFS 디렉토리 최대값 설정 변경 HDFS 조회중 item limit 으로 인해 발생하는 다음의 오류는 hdfs-site.xml 에 설정된 dfs.namenode.fs-limits.max-directory-items 의 값보다 많은 수의 개체가 생성되어서 그렇습니다. ERROR [uber-SubtaskRunner] org.apache.hadoop.hive.ql.Driver: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: org.apache.hadoop.ipc.RemoteException The directory item limit of /user/ is exceeded:.. 2018. 12. 10.

[hadoop] 세컨더리네임노드(secondary namenode) 하둡 HDFS는 동작하면서 HDFS에 파일을 생성, 삭제 하는 등의 작업에 대한 트랜잭션 로그를 기록합니다. 해당 로그는 Edits_XXX 이름으로 네임노드의 dfs.namenode.edits.dir 에 설정된 위치에 저장됩니다. 이 트랜잭션 로그는 트랜잭션이 많아질 수록 빠르게 해당 위치에 쌓이게 됩니다. 로그는 세컨더리네임노드를 이용하여 정리할 수 있습니다. 세컨더리네임노드는 다음과 같이 실행합니다. > hdfs secondarynamenode 세컨더리 네임노드는 설정값에 따라 기본 한시간에 한번씩 Edits 로그를 확인하면서 설정값이상의 파일이나, 트랜잭션 횟수를 넘어서면 Edits 파일을 정리하여 사이즈를 줄여줍니다. dfs.namenode.checkpoint.period: 체크포인트 확인 시간 .. 2018. 9. 14.

[hadoop] YARN, 맵리듀서 메모리 설정 Yarn의 설정은 다음과 같다. yarn.nodemanager.resource.memory-mb- 노드의 메모리 크기 설정 yarn.nodemanager.resource.cpu-vcores- 노드의 코어 개수 설정 yarn.scheduler.minimum-allocation-mbyarn.scheduler.maximum-allocation-mb- RM이 컨테이너당 할당하는 최소, 최대 메모리 yarn.scheduler.minimum-allocation-vcoresyarn.scheduler.maximum-allocation-vcores- RM이 컨테이너당 할당하는 최소, 최대 코어 매퍼 설정은 다음과 같다 a. mapreduce.map.memory.mbb. mapreduce.map.cpu.vcoresc. m.. 2018. 5. 17.

[hadoop] 맵리듀스 동작 순서 맵리듀스는 8단계로 나누어져 있다고 할 수 있습니다. 각 단계는 작업에 따라서 생략될 수도 있습니다. 입력 -데이터를 입력하는 단계 -텍스트, csv, gzip 형태의 데이터를 읽어서 맵으로 전달 맵(Map) -입력을 분할하여 키별로 데이터를 처리 컴바이너(Combiner) -네트워크를 타고 넘어가는 데이터를 줄이기 위하여 맵의 결과를 정리 -로컬 리듀서라고도 함 -컴바이너는 작업의 설정에 따라 없을 수도 있음 파티셔너(Partitoner) -맵의 출력 결과 키 값을 해쉬 처리하여 어떤 리듀서로 넘길지를 결정 셔플(Shuffle) -각 리듀서로 데이터 이동 정렬(Sort) -리듀서로 전달된 데이터를 키 값 기준으로 정렬 리듀서(Reduce) -리듀서로 데이터를 처리하고 결과를 저장 출력 -리듀서의 결과를.. 2018. 4. 17.

[hadoop] Ambari, Avro AmbariHadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig 및 Sqoop에 대한 지원을 포함하여 Apache Hadoop 클러스터를 프로비저닝, 관리 및 모니터링하기위한 웹 기반 도구. 히트 맵과 같은 클러스터 상태를 확인하고 MapReduce, Pig 및 Hive 애플리케이션을 시각적으로 볼 수있는 기능을 제공하는 대시 보드를 제공하여 성능 특성을 사용자에게 친숙한 방식으로 진단 Avro데이터 직렬화 시스템다른 시스템 사이의 데이터를 교환할 수 있게 해주는 시스템 2018. 3. 29.

[hadoop] shuffle 단계 메모리 설정 정보 셔플단계는 Map task와 Reduce task 단계에서 데이터를 전달하는 과정이다. 맵리듀스는 다음의 단계를 거치는데, 3~7 단계가 셔플 과정에 있다고 볼 수 있다. 1. 스플릿 생성2. 맵3. 스필4. 병합5. 복사6. 정렬7. 리듀스 이 셔플 단계에서 설정할 수 있는 설정값은 다음과 같다. mapred.reduce.shuffle.parallelcopiescopy phase 에서 데이터를 병렬로 전송하는 thread의 수 (default 5)reduce task는 클러스터 내에 퍼져 있는 많은 map task로부터 특정 파티션에 해당하는 output을 필요로 하여 map task의 출력이 끝나는 즉시 복사하기 시작함. 그 때 데이터를 전송하는 thread 수를 조정하는 설정값mapreduce.re.. 2018. 3. 26.

[hadoop] yarn 아키텍처 Yarn 아키텍처는 하둡2에서 도입되었다. 하둡1의 병목지점인 잡트래커(jobTracker)의 기능을 리소스 관리, 잡 관리로 나누어서 노드 매니저(리소스 관리), 애플리케이션 마스터(잡 관리)에거 권한을 나누어 주었다. 리소스 매니저- 어플리케이션마다 자원을 할당하고, 애플리케이션 마스터를 관리한다. - 클러스터당 1개 노드 매니저 - 노드의 컨테이너를 관리하고 자원 상태를 리소스 매니저에 통지한다. - 노드당 1개 애플리케이셔 마스터- 어플리케이션의 실행을 관리하고 상태를 RM에 통지한다. - 어플리케이션당 1개 컨테이너- 애플리케이션을 실행- 제한된 자원을 가지고, 상태를 AM에 통지한다. http://skccblog.tistory.com/1883 2018. 1. 16.

[hadoop] hadoop1, 2, 3의 특징 및 장단점 Haodoop 1클러스터당 최대 4000개의 노드를 등록 가능 MR 잡을 수행할 수 있음작업 처리를 슬롯 단위로 수행 Hadoop 2클러스터 당 10000개 이상의 노드가 가능MR 잡외에 Spark, Hama, Giraph 등 다른 분산 처리 모델도 수행 가능Hadoop1의 잡트래커가 리소스 관리, 잡 스케줄링을 동시에 처리하여 병목 지점이 되어 YARN 추가YARN은 리소스매니저, 애플리케이션 마스터가 리소스 관리, 잡 스케줄링을 담당 Hadoop 3 HDFS erasure coding 추가 기존의 Replication 을 대체하는 방식으로 복제를 하지 않고 오류에 대응YARN 타임라인 서비스 v2 기존 타임라인 서비스보다 많은 정보 확인 가능쉘스크립트 재작성오래된 쉘스크립트를 재작성하여 버그 수정 J.. 2017. 12. 21.

[개념] HCatalog, HCatalog Server HCatalog는 하이브 0.11.0 버전에 통합되었습니다. [바로가기] HCatalog Server는 Hive Metastore와 같습니다. 따라서 EMR의 경우 hive-hcatalog-server 로 실행되는 프로세스가 하이브 메타스토어 입니다. 개요 HCatalog는 하둡 에코 시스템의 데이터 처리 도구(Pig, MR, Hive)들 간의 테이블, 저장공간 관리 계층을 제공한다. HDFS 상의 파일들에 대한 추상계층을 제공하여, 사용자가 데이터의 위치, 저장 형태에 대하여 신경쓰지 않아도 되도록 제공한다. HCatalog는 파일을 읽고, 쓰기 위한 SerDe 를 제공한다. RCFile, CSV, JSON, SequenceFile, ORC 포맷을 지원한다. 사용자가 커스텀 포맷을 생성하여 처리할 수도.. 2017. 11. 28.

[hadoop] MR과 TEZ의 차이 Apache Tez – Present and Future from DataWorks Summit MR은 일반적으로 다음과 같은 단계를 거칩니다. 1. 파일에서 데이터를 읽음 2. 매퍼작업 - 임시 결과를 출력 3. 셔플과 정렬 - 맵의 임시 결과를 읽고, 이동하고, 다시 씀 4. 리듀서작업 - 임시 결과를 읽음 5. 결과 출력 테즈는 이 모든 작업을 메모리 상에서 처리합니다. 임시 데이터는 메모리에서 처리합니다. 따라서 MR에 비해 디스크 IO가 줄어들어서 속도가 빨라집니다. 2017. 10. 24.

[hadoop] 하둡 커패시티 스케줄러(capacity-scheduler) 하둡의 스케줄러중 하나인 커패시티 스케줄러는 큐별로 사용할 수 있는 자원의 총량을 정해놓고 처리하는 방식이다. 하둡설정의 capacity-scheduler.xml 파일을 이용하여 설정할 수 있다. * 운영중에 큐의 추가는 가능하다. * capacity-scheduler.xml 을 수정하고, yarn rmadmin -refreshQueues 를 입력한다. ** 운영중에 큐의 삭제는 불가능하다. ** capacity-scheduler.xml 을 수정하고, 리소스 매니저를 재시작하면 된다. YARN overview from SeongHyun Jeong https://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/CapacityScheduler.html 2017. 10. 18.

[hadoop] 맵리듀스의 맵퍼 리듀서 개수 설정하기 하둡의 매퍼 리듀서 개수는 입력사이즈에 의해서 설정하는 방법과 사용자가 개수를 설정하는 방법이있다. set mapreduce.input.fileinputformat.split.maxsize=268435456;set mapreduce.input.fileinputformat.split.minsize=134217728; set mapred.reduce.tasks=-1;set hive.exec.reducers.bytes.per.reducer=134217728; set mapreduce.job.maps=100; set mapreduce.job.reduces=100; * 하둡 위키에 따르면 매퍼의 개수는 하둡이 계산한 매퍼의 개수 이하로는 설정할 수 없다고 한다. 하둡이 매퍼의 개수를 500개로 계산했는데 100개.. 2017. 9. 21.

[hive] tez 실행중 메모리 오류 발생 하이브에서 tez 엔진을 이용하여 작업중 다음과 같은 오류가 발생하는 경우이는 tez의 AM 기본메모리가 1G로 설정되어서 발생하는 오류이다. 기본메모리 이상으로 메모리를 설정하여 진행하면 된다. FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.tez.TezTask. Application application_*** failed 2 times due to AM Container for appattempt_*** exited with exitCode: - ***Current usage: 1.1 GB of 1 GB physical memory used;*** 다음의 옵션을 이용하여 AM의 메모리를 늘려서 처리하면 오류가 해.. 2017. 9. 20.

[하둡]HDFS의 헬스 체크 및 커럽트 블럭 삭제하기 HDFS의 블록에 오류가 발생해서 커럽트 블록이 발생하면 이 부분을 hdfs 쉘을 이용하여 확인할 수 있다. hdfs fsck /hdfs fsck /user/- fsck 다음에 경로를 꼭 입력해야 한다. hdfs fsck -list-corruptfileblocks- 커럽트 블록 목록 확인 hdfs fsck -delete- 커럽트 블록을 삭제한다. hdfs fsck -move- 커럽트 블록을 lost+found 로 이동한다. HDFS의 상태가 이상해서 fsck 명령으로 확인하여 아래와 같이 커럽트 블록을 확인하면, -list-corruptfileblocks 명령으로 블록을 확인하고, -delete 명령으로 삭제후, 새로 배포하면 된다. - 시스템 상태가 정상The filesystem under path '.. 2017. 9. 18.

[hadoop] HDFS 관련 주요 면접 질문 -HDFS의 주요 특징은?블록단위 파일 보관파일을 사용자가 지정한 단위의 블록으로 분할 하여 저장분할하여 저장하기 때문에 큰사이즈의 데이터도 저장이 가능700G 디스크가 2개 있을때 1T파일을 저장하려고 한다면 1T 디스크를 사지 않고, 파일을 분할하여 저장 가능 분산 저장 파일 시스템클러스터의 노드에 분산하여 저장이 가능레플리케이션하나의 블록을 기본 복제 단위 만큼 복사하여 저장범용장비 사용특정 장비가 아니라 일반적인 장비에서 사용이 가능 - HDFS의 구조네임노드디렉토리, 파일 정보 관리블록과 디렉토리간 매핑 정보 관리파일 시스템의 관리를 위애 fsimage와 edits를 이용데이타노드파일을 블록단위로 나누어서 저장체크포인트 노드, 세컨더리 네임노드fsimage와 edits를 주기적으로 체크하여 체크.. 2017. 9. 11.

[hadoop] 빅데이터 면접 질문 빅데이터 관련해서 정보를 찾던 중에 빅데이터 관련 면접에서 알아두면 좋을 내용이 있어서 스크랩해 보았다. 공부해 두면 좋은 내용들이어서 정리 해 보았다. 1. 하둡과 전통적인 RDBMS의 차이점은? 데이터 타입: 하둡은 정형, 반정형, 비정형 데이터: RDBMS는 정형 데이터 스키마: 하둡 - Schema on Read: RDBMS - Schema on Write: 데이터를 읽을 때 스키마를 적용하느냐, 데이터를 적재할 때 스키마를 적용하느냐: https://goo.gl/images/dQiQCJ 좋은 사용법: 하둡은 대용량 데이터 처리: RDBMS는 OLTP 데이터 처리나 복잡한 ACID 트랜잭션에 적용 속도: 하둡은 쓸 때 빠르고 : RDBMS는 읽을 때 빠르다. 2. 빅데이터에서 4V는 무엇을 말하나.. 2017. 9. 10.

[hdfs] 하둡 hdfs의 휴지통 설정하기 hdfs에는 사용자의 실수로 인한 파일의 삭제를 방지하기 위해서 휴지통 기능이 존재한다. fs.trash.interval- 0 으로 설정하면 휴지통 기능을 사용하지 않음- 설정한 분(minute) 간격으로 체크해서 시간이 지난 파일 삭제 fs.trash.checkpoint.interval- 설정한 시간이 지난 파일 삭제 hadoop fs -expunge 명령으로 휴지통을 비움hadoop fs -rm -skipTrash /data 명령으로 휴지통을 이용하지 않고 파일을 바로 삭제 https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html#File_Deletes_and_Undeleteshttps://hadoop... 2017. 7. 24.

[hadoop][fsck] HDFS의 상태를 점검 할 수 있는 명령어 HDFS의 fsck 명령- HDFS 상의 다양한 불일치(블록 누락, 복제 되지 않은 블록)를 확인- 오류를 발견하고 수정하지는 않음(NameNode가 복구가능한 오류는 자동으로 수정)- 열린 파일은 무시함 > hadoop fsck /Status: HEALTHY Total size: 3984631262 B # 현재 사용중인 byte (hadoop fs -du -s / 명령어와 동일한 값) Total dirs: 678 Total files: 3453 Total symlinks: 0 Total blocks (validated): 3450 (avg. block size 1154965 B) # 최소 개수로 복제된 블록 Minimally replicated blocks: 3450 (100.0 %) # 기본 설정값 .. 2017. 4. 10.

개발자로 살아남기

빅데이터/hadoop78

티스토리툴바