노드매니저가 Linux Container Executor reached unrecoverable exception 오류를 출력하면서 UNHEALTHY 상태로 들어가는 경우가 있습니다.

이 경우 실행된 컨테이너가 35번 오류를 출력하면서 종료 되었을 때 발생합니다. 다음과 같이 오류일 가능성이 있으므로 지속적으로 발생한다면 패치를 하거나, 버전을 올려야 합니다.
우선은 간단하게 캐쉬 파일 위치를 삭제하고, 재부팅하는 것으로 문제를 해결할 수 있습니다.
https://issues.apache.org/jira/browse/YARN-9833
[YARN-9833] Race condition when DirectoryCollection.checkDirs() runs during container launch - ASF JIRA
During endurance testing, we found a race condition that cause an empty localDirs being passed to container-executor. The problem is that DirectoryCollection.checkDirs() clears three collections: this.writeLock.lock(); try { localDirs.clear(); errorDirs.cl
issues.apache.org
반응형