Hamake 특징 및 설치, Examples 실행

 

데이터 중심(data-driven)의 WorkFlow를 설정할 수 있는 Utillity

특징
– 경량 유틸리티 – 복잡한 설치 필요 없음
– 데이터 흐름 프로그래밍 모델 기반(DAG)
– 쉬운 학습 곡선.
– 아마존 Elastic MapReduce 지원
– MapReduce 작업뿐만 아니라 PIG Latin scripts를 실행

Hamake와 Cascading의 차이점
– Cascading는 API, hamake은 utility

Hamake는 Oozie와 Azkaban
– Oozie 및 Azkaban는 설치 및 서비스(데몬)로 실행해야 할 서버 측 시스템

HaMake 설치

1. 다운로드

2. 설정

export HADOOP_HOME_WARN_SUPPRESS=1 이 부분은 hadoop 명령실행시 Warning: $HADOOP_HOME is deprecated 가 발생하지 않도록 하기 위한 설정이다.

3. 실행

4. Hamake Examples 실행

hamake 는 map/reduce를 hdfs에 올려놓고 실행한다.

HaMake 가 data-driven이라는데, 처음에는 무슨의미인지 잘이해를 못했는데,

examples을 구동해보니, 좀 감이온다.

oozie 나 azkaban의 경우는 job 간의 관계(dependencies)를 설정하는 반면,

hamake는 job간의 관계가 아닌 data 중심으로 관계를 설정한다.

예를 들면, job1의 output data의 위치를 job2의 input으로 설정해주는 방식이다.

그럼 실제로 구동을 시켜보면…

Hamake Examples

 

This entry was posted in Bigdata/Hadoop, Util/Tools and tagged , , , , . Bookmark the permalink.

댓글 남기기