본문 바로가기

실행4

[amundsen] 도커를 이용한 아문센(amundsen) 실행 방법 아문센은 데이터 카탈로그 플랫폼의 하나로 사내 데이터 확인을 위한 플랫폼 입니다. 사내 여러곳에 저장되어 있는 데이터 위치를 모아서 보여주고, 추천해 주는 시스템입니다. https://www.amundsen.io/amundsen/installation/ Quick Start - Amundsen  Installation Bootstrap a default version of Amundsen using Docker The following instructions are for setting up a version of Amundsen using Docker. Make sure you have at least 3GB available to docker. Install docker and docker-comp.. 2021. 8. 22.
[atlas] 아파치 아틀라스(apache atlas) 빌드 및 실행 아파치 아틀라스는 데이터 카탈로그 플랫폼으로 사내의 데이터를 모아서 보여주는 역할을 합니다. 데이터가 작을 때는 사용자가 데이터의 위치를 기억하고 사용하는 것이 가능하지만, 데이터가 커지고 데이터를 수집하는 주체가 늘어나면 모든 데이터르 기억하고 이용하는 것이 불가능해지며, 여기 저기 데이터가 난립하게 됩니다. 이럴 때 필요한 것이 데이터 카탈로그(Data Catalog)입니다. 사내 hive, hbase, hdfs, sqoop 등에 저장된 데이터를 한 곳에 모아서 데이터의 계보, 칼럼의 정보등을 보여줍니다.이를 제공하는 것이 아틀라스입니다. 아틀라스 빌드 아틀라스는 인텔리j를 이용하여 편리하게 빌드할 수 있습니다. 아틀라스 소스 코드를 다운로드 git 등에서 소스코드를 다운로드 합니다. 저는 atlas.. 2021. 8. 21.
[kafka] 분산 스트리밍 플랫폼 - 카프카 카프카란? Apache Kafka는 링크드인에서 개발한 분산 스트리밍 플랫폼(distributed streaming platform) 2019.09 현재 2.3.0 버전이 가장 최신 생산자는 데이터를 생성 카프카 서버(브로커)는 데이터를 파티션 단위로 저장 데이터를 저장할 때 디스크를 이용하여, 장애가 발생하여도 데이터 유실이 없음 하드디스크의 순차적 읽기 기능을 이용하여 속도를 유지 사용자는 브로커에 데이터를 요청하여 데이터를 가져감 유스케이스 메시징(Messaging) 생산자(Producer)와 사용자(Consumer) 사이의 메시지 전달 웹사이트 동작 체크(Website Activity Tracking) 웹사이트의 운영 메시지를 전달하여 동작 체크 가능 메트릭(Metrics) 서버, 애플리케이션의 .. 2019. 9. 24.
[oozie] 우지 워크플로우(workflow) 기본 스펙 및 실행 우지 워크플로우의 기본 스펙과 실행 방법에 대해서 알아보겠습니다. [워크플로우 기본 스펙] 우지 워크플로우는 우지가 실제로 실행하는 작업의 순서를 담고 있습니다. XML 스키마에 맞춰서 작성하면 됩니다. https://oozie.apache.org/docs/4.2.0/WorkflowFunctionalSpec.html#Appendix_A_Oozie_XML-Schema Oozie - ::Go back to Oozie Documentation Index:: Oozie Specification, a Hadoop Workflow System (v3.1) The goal of this document is to define a workflow engine system specialized in coordinatin.. 2019. 4. 19.