빅데이터/hive

[hive] 맵 조인 처리 기준 사이즈 확인

hs_seo 2020. 6. 11. 23:20

맵 조인은 작은 크기의 테이블을 메모리에 적재하여 조인을 처리합니다. 이 때 테이블 데이터의 크기는 자바 객체의 사이즈입니다. 실제 파일의 사이즈와 다릅니다.

예를 들어 다음의 테이블 table_orc, table_txt는 동일한 데이터를 보관하고 있는 테이블입니다. 65,454개의 데이터를 저장 형식만 다르게 하여 저장한 것입니다.

맵 조인에는 객체 사이즈(rawDataSize)를 이용하기 때문에 hive.auto.convert.join.noconditionaltask.size를 설정할 때 객체 사이즈 기준으로 설정해야 합니다. 기본 설정이 10MB 일때 table_orc는 셔플 조인으로 처리되고, table_txt는 맵 조인으로 처리됩니다. table_orc를 맵조인으로 처리하기 위해서는 hive.auto.convert.join.noconditionaltask.size=20000000으로 설정해야 합니다.

ORC 형식은 데이터를 저장할 때 압축하여 저장하기 때문에 물리적인 파일의 크기가 원본에 비하여 줄어든 것을 확인할 수 있습니다. 객체 사이즈(rawDataSize)는 데이터의 타입과 자바 객체의 오버헤드 통계 정보등을 추가한 사이즈입니다. 따라서 파일 사이즈(totalSize)보다 증가할 수 있습니다.


테이블	형식	파일 사이즈(totalSize)	객체 사이즈(rawDataSize)
table_orc	ORC	254,632(248 KB)	18,850,752(17.9 MB)
table_txt	TXT	2,639,622(2.5 MB)	2,574,168 (2.4 MB)

table 정보 비교

table_txt

hive (hseok1_seo)> desc formatted table_txt;
OK
# col_name                data_type               comment             

column_1                  string                                      
column_2                  string                                      
column_3                  string                                      

# Detailed Table Information          
Table Parameters:          
    numFiles                1                   
    numRows                 65454               
    rawDataSize             2574168             
    totalSize               2639622             

# Storage Information          
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe     
InputFormat:            org.apache.hadoop.mapred.TextInputFormat     
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat

table_orc

hive (hseok1_seo)> desc formatted table_orc;
OK
# col_name                data_type               comment             

column_1                  string                                      
column_2                  string                                      
column_3                  string                                     

# Detailed Table Information          
Table Parameters:          
    numFiles                1                   
    numRows                 65454               
    rawDataSize             18850752            
    totalSize               254632              

# Storage Information          
SerDe Library:          org.apache.hadoop.hive.ql.io.orc.OrcSerde     
InputFormat:            org.apache.hadoop.hive.ql.io.orc.OrcInputFormat     
OutputFormat:           org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat

저작자표시 비영리 동일조건