Apache Hadoop Ecosystem 소개


Apache Hadoop Ecosystem은 HDFS를 비롯하여 여러 오픈소스 프로젝트로 구성되어 있다. 대표적인 프로젝트는 다음과 같다.

<Big Data Analysis>

* HDFS: Hadoop Distributed Filesystem (http://wiki.apache.org/hadoop/HDFS) <- 사용중
* Fuse-DFS: Mountable HDFS (http://wiki.apache.org/hadoop/MountableHDFS/)
* HBase: NoSQL (http://hbase.apache.org/) <- 사용중
* HCatalog: 테이블 관리 (http://incubator.apache.org/hcatalog/)
* Thrift: 데이터 직렬화 (http://thrift.apache.org/) <- 사용중
* Avro: 데이터 직렬화 (http://avro.apache.org/)
* MapReduce: 데이터 분석 엔진 (http://wiki.apache.org/hadoop/MapReduce) <- 사용중
* Pig: 데이터 분석 언어 (http://pig.apache.org/)
* Hive: 데이터 쿼리 언어 (http://hive.apache.org/) <- 사용중
* Oozie: 워크플로우 관리 (http://incubator.apache.org/oozie/)
* Mahout: 데이터 마이닝 (http://mahout.apache.org/)
* Giraph: 그래프 분석 (http://incubator.apache.org/giraph/)
* Lucene: 검색엔진 (http://lucene.apache.org/core/) <- 사용중
* Hama: 병렬컴퓨팅 (http://incubator.apache.org/hama/)

<Management>

* Zookeeper: 클러스터 관리 (http://zookeeper.apache.org/) <- 사용중
* Ambari: 환경설정, 모니터링 (http://incubator.apache.org/ambari/)
* Whirr: 클러스터 배포 (http://whirr.apache.org/)
* Bigtop: 패키지 개발 (http://incubator.apache.org/bigtop/)

<Data Import>

* Chukwa: 이벤트 수집/분석/출력/모니터링 (http://incubator.apache.org/chukwa/)
* Sqoop: RDBMS 데이터 수집 (http://incubator.apache.org/sqoop/)
* Flume: 이벤트 데이터 수집 (http://incubator.apache.org/flume/) <- 사용중
* Kafka: 데이터 수집 (http://incubator.apache.org/kafka/)
* S4: 이벤트 데이터 처리 (http://incubator.apache.org/s4/)
* Nutch: 웹 검색 (http://nutch.apache.org/) <- 사용중

이외 Apache Hadoop Ecosystem에 다음과 같은 오픈소스 프로젝트를 연동할 수 있다.

* 통계 분석: R (http://www.r-project.org/)
* 검색엔진: Katta (http://katta.sourceforge.net/)
Elasticsearch (http://www.elasticsearch.org/) <- 사용중
* 캐쉬서버: Redis (http://redis.io/)
Memcached (http://memcached.org/)
Hazelcast (http://www.hazelcast.com/)
* 데이터 수집: Scribe (https://github.com/facebook/scribe/)
Hiho (https://github.com/sonalgoyal/hiho/)
Honu (https://github.com/jboulon/Honu/)
Big Streams (http://code.google.com/p/bigstreams/)
* 데이터 직렬화: Protocol Buffers (http://code.google.com/p/protobuf/)
* 데이터 분석: Cloud MapReduce (http://code.google.com/p/cloudmapreduce/)
* 분석 언어(Python): Pydoop (http://sourceforge.net/apps/mediawiki/pydoop/)
Dumbo (https://github.com/klbostee/dumbo/)
Hadoopy (https://github.com/bwhite/hadoopy/)
Mrjob (https://github.com/Yelp/mrjob/)
Happy (http://code.google.com/p/happy/)
* 분석 언어(Ruby): Mrtoolkit (http://code.google.com/p/mrtoolkit/)
Wukong (https://github.com/mrflip/wukong/)
* 쿼리 언어: JAQL (http://code.google.com/p/jaql/)
Cascalog (https://github.com/nathanmarz/cascalog/)
* 데이터 웨어하우스: CloudBase (http://cloudbase.sourceforge.net/)
HadoopDB (http://db.cs.yale.edu/hadoopdb/hadoopdb.html)
* 워크플로우: Cascading (http://www.cascading.org/)
Azkaban (http://sna-projects.com/azkaban/)
Hamake (http://code.google.com/p/hamake/)
* 이벤트 처리: Esper (http://esper.codehaus.org/)
* 그래프 분석: Golden Orb (http://goldenorbos.org/)
* 웹 서버: Jetty (http://jetty.codehaus.org/jetty/) <- 사용중
* 모니터링: HUE (http://archive.cloudera.com/cdh/3/hue/)
Karmasphere (http://karmasphere.com/)
Ganglia (http://ganglia.sourceforge.net/)
* 병렬컴퓨텅: Disco (http://discoproject.org/)

다음과 같이  Hadoop 배포판도 존재한다.

* Cloudera: CDH – Cloudera’s Distribution (http://www.cloudera.com/hadoop/)
* Yahoo: Hadoop at Yahoo! (http://developer.yahoo.com/hadoop/)
* Facebook: Hadoop at Facebook (https://github.com/facebook/hadoop-20/)

HBase와 유사한 NoSQL들은 다음과 같다.

* NoSQL: MongoDB (http://www.mongodb.org/)
Cassandra (http://cassandra.apache.org/)
CouchDB (http://couchdb.apache.org/)
HyperTable (http://hypertable.org/)
Voldemort (http://project-voldemort.com/)
Scalaris (http://code.google.com/p/scalaris/)
Riak (http://basho.com/products/riak-overview/)
Neptune (http://dev.naver.com/projects/neptune/) – NHN
Cloudata (http://www.cloudata.org/) – Gruter
ETC (http://en.wikipedia.org/wiki/NoSQL)

정말 끝이 없다..ㅋㅋ

출처 : http://woodruff.tistory.com/4


This entry was posted in Bigdata/Hadoop and tagged , , . Bookmark the permalink.

댓글 남기기