본문 바로가기

아파치4

[kafka] 분산 스트리밍 플랫폼 - 카프카 카프카란? Apache Kafka는 링크드인에서 개발한 분산 스트리밍 플랫폼(distributed streaming platform) 2019.09 현재 2.3.0 버전이 가장 최신 생산자는 데이터를 생성 카프카 서버(브로커)는 데이터를 파티션 단위로 저장 데이터를 저장할 때 디스크를 이용하여, 장애가 발생하여도 데이터 유실이 없음 하드디스크의 순차적 읽기 기능을 이용하여 속도를 유지 사용자는 브로커에 데이터를 요청하여 데이터를 가져감 유스케이스 메시징(Messaging) 생산자(Producer)와 사용자(Consumer) 사이의 메시지 전달 웹사이트 동작 체크(Website Activity Tracking) 웹사이트의 운영 메시지를 전달하여 동작 체크 가능 메트릭(Metrics) 서버, 애플리케이션의 .. 2019. 9. 24.
[airflow] 워크플로우 모니터링 플랫폼 - apache airflow Airflow 란? 에어비앤비에서 개발한 워크플로우 스케줄링, 모니터링 플랫폼 빅데이터는 수집, 정제, 적제, 분석 과정을 거치면서 여러가지 단계를 거치게 되는데 이 작업들을 관리하기 위한 도구 2019.09 현재 1.10.5 버전이 최신이며 아파치의 탑레벨 프로젝트로 등록^1 특징 Dynamic 에어플로우 파이프라인(동작순서, 방식)을 파이썬 코드를 이용하여 구성하기 때문에 동적인 구성이 가능 Extensible 파이썬을 이용하여 오퍼레이터, 익스큐터를 사용자의 환경에 맞게 확장하여 구성하는 것이 가능함 Elegant 에어플로우 파이프라인은 간결하고 명시적이며, 진자 템플릿(jinja template)을 이용하여 파라미터화 된 데이터를 전달하고 자동으로 파이프라인을 생성하는 것이 가능 Scalable .. 2019. 9. 9.
[hadoop][tez] 아파치 테즈(Apache tez) 프레임워크 아파치 하둡2.0의 YARN 위에서 동작하는 비동기 사이클 그래프 프레임워크이다. pig, hive와 연동하여 사용하면 기존의 mapreduce에 비하여 성능이 향상되는 효과를 얻을 수 있다. hadoop을 크게 저장을 위한 hdfs와 분산 처리를 위한 mapreduce로 나눌 수 있는데,mapreduce 부분이 처리과정이 분할되면 다음 처리를 위한 데이터를 hdfs에 저장하게 되는데 이 부분을 제거하고 데이터를 메모리에 저장하게 함으로써 처리 성능을 높여 준다. 기존에 stage 사이의 정보가 hdfs에 저장되는 것을 메모리를 활용하여 처리함으로써 성능을 높여 주는 것이다. * stage 가 나누어 지지 않는 작업의 경우 크게 향상 되지 않을 수도 있다. ** MR에 비하여 작업이 오히려 늦어질수도 있.. 2016. 12. 12.
[개념] 쓰리프트 페이스북에서 데이터 직렬화를 위한 일반화된 데이터 솔루션을 제공하기 위해 개발한 오픈소스 프로젝트다. 이종언어간에도 직렬화 서비스를 지원한다. 페이스북에서 개발되어 아파치 프로젝트로 이전되었다. 직렬화될 데이터를 기술하는 설정 파일을 개발자가 정의할 수 있다. 그리고 나면 코드 생성기가 실행되어 미리 지정한 언어로 데이터 직렬화를 처리하는 서버가 만들어 진다. 구글의 프로토콜 버퍼는 쓰리프트와 아주 비슷하다. http://wikibook.co.kr/article/hosting-and-sharing-terabytes-of-raw-data-2/ http://brad2014.tistory.com/320 2015. 9. 14.