티스토리 뷰
올해 초 하이브 2가 발표 되었는데 그 내용을 정리해 본다.
* 주요 내용은 LLAP의 적용, 기존 MR 엔진이 deprecated 되고 Tez 엔진이 적용, Spakr 지원 강화가 될 것 같다.
New Functionality
- HBase metastore (HIVE-9452) – alpha
- 현재 메타스토어 구현은 테이블과 파티션이 늘어나면 느려진다.
- 실행 계획을 짜는 시간이 더 줄어들게 되면서 더 빨라진다.
- LLAP(Live Long and Process) (HIVE-7926) – beta
- 새로운 하이브리드 실행모델
- caching of columnar data, JIT-friendly operator pipelines,
- and reduced overhead for multiple queries (including concurrent queries),
- as well as new performance features like asynchronous I/O, pre-fetching and multi-threaded processing
- 컬럼 데이터 캐싱, JIT 친화적 인 운영 파이프 라인 지원
- 동시 쿼리를 포함한 여러 쿼리의 오버 헤드 감소뿐만 아니라 비동기 입출력, 사전 인출 및 멀티 스레드 처리를 지원
- HPL/SQL for procedural SQL (HIVE-11055)
- PL/HQL 툴 제공
- procedural SQL을 구현했다고 한다. 오라클의 PL/SQL과 유사할 듯
- http://www.hplsql.org/features
- Hive-on-Spark: container prewarm (HIVE-11363)
- 우지에 의해서 하이브 잡이 실행되면 작업간 하이브 세션이 공유되지 않음
- 스파크에서 실행되는 하이브는 executor 공유할 수 있도록 설정
- CLI mode in Beeline for Hive CLI deprecation (HIVE-10516)
- Hive-on-Spark parallel ORDER BY (HIVE-10458)
- 기존에는 소팅을 위해 리듀서를 1로 설정하여 파일을 하나로 해야 했지만 스파크가 병렬 소팅을 지원하도록 개선함
Performance and Optimizations
- Hive-on-Spark: Dynamic partition pruning (HIVE-9152)
- 테즈가 다이나믹 파티션 가지치기를 효율적으로 구현하도록 수정
- Hive-on-Spark: make use of Spark persistence for self union/join (HIVE-10844, HIVE-10550)
- self union/join 처리시 스파크의 RDD에서 데이터를 읽어와서 빠르게 처리할 수 있도록 지원
- Enable optimized hash tables for Spark (HIVE-11182)
- Hive-on-Spark: vectorized map-join and other join improvements (HIVE-10855, HIVE-10302)
- CBO enhancements (HIVE-10627,HIVE-10686)
- Apache Parquet predicate pushdown (HIVE-11401)
Security
- Secure HiveServer2 web UI (HIVE-12471, HIVE-12485)
Usability, Supportability, and Stability
- Codahale-based metrics (HIVE-10761)
- HiveServer2 web UI (HIVE-12338)
- More stable and usable Hive-on-Spark (HIVE-8858, HIVE-9139, HIVE-10434, HIVE-10476, HIVE-10594, HIVE-10989, and so on)
10 new exciting features in Apache Hive 2.0.0
ANNOUNCING APACHE HIVE 2.1: 25X FASTER QUERIES AND MUCH MORE
* 동적 파티션 가지치기 : 파티션 Pruning은 하드파싱이나 실행 시점에 SQL 조건절을 분석하여 읽지 않아도 되는 파티션 세그먼트를 액세스 대상에서 제외 시키는 기능
'빅데이터 > hive' 카테고리의 다른 글
[hive] ORC 파일 포맷 (0) | 2016.12.28 |
---|---|
[hive][error] msck repair table 처리시 오류 수정 (0) | 2016.12.20 |
[hive][error] java.io.IOException: Not a file (0) | 2016.12.01 |
[hive][error] 하이브의 mysql 커넥터 오류 수정 (0) | 2016.11.24 |
[hive] 하이브 테이블의 null 값 표현 (0) | 2016.10.24 |
- Total
- Today
- Yesterday
- oozie
- 파이썬
- mysql
- java
- yarn
- AWS
- build
- nodejs
- emr
- Python
- 하이브
- Linux
- HDFS
- ubuntu
- Tez
- HIVE
- S3
- SQL
- bash
- 정올
- 다이나믹
- hbase
- 백준
- SPARK
- airflow
- error
- 오류
- Hadoop
- 알고리즘
- 하둡
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |