IT_AI_DeepLearning/Hadoop Eco

Apache Hadoop 생태계 솔루션

JJun ™ 2013. 7. 13. 06:28

 


 출처 : 대용량 데이터 분석 및 처리를 위한 Hadoop & NoSQL  


 

 


1. Apache Hadoop 생태계 솔루션

 

구분이름설명링크
웹 크롤링Nutch웹 검색http://nutch.apache.org
수집Chukwa로그 수집/분석/출력/모니터링http://incubator.apache.org/chukwa
SqoopRDBMS 데이터 수집http://sqoop.apache.org
Flume이벤트 데이터 수집http://flume.apache.org
Kafka데이터 수집http://kafka.apache.org
S4이벤트 데이터 처리http://incubator.apache.org/s4/
데이터 직렬화Thrift데이터 직렬화http://thrift.apache.org
Avro데이터 직렬화http://avro.apache.org
적재HDFS하둡 분산 파일 시스템http://hadoop.apache.org
Fuse-DFS마운터블 HDFShttp://wiki.apache.org/hadoop/MountableHDFS
Hcatalog테이블 관리http://incubator.apache.org/hcatalog/
데이터 모델링
및 처리 분석
MapReduce데이터 분석 엔진
Mahout데이터 마이닝http://mahout.apache.org
Giraph그래프 분석http://giraph.apache.org
Hama병렬 컴퓨팅http://hama.apache.org
질의 지원Pig데이터 분석 언어http://pig.apache.org
Hive데이터 쿼리 언어http://hive.apache.org
워크플로우 지원Oozie워크플로우 관리http://oozie.apache.org
실시간 분석/검색HbaseNoSQLhttp://hbase.apache.org
Lucene검색엔진http://lucene.apache.org/core/
모니터링 및 관리Zookeeper클러스터 관리http://zookeeper.apache.org
Ambari환경설정, 모니터링http://incubator.apache.org/ambari
Whirr클러스터 배포http://whirr.apache.org
Bigtop패키지 개발http://bigtop.apache.org



 

2. 구글(Google)과 하둡(Hadoop)의 솔루션 공개 비교

 Google오픈소스(Hadoop 진영)
기능발표년도이름발표년도이름(제공처)
대용량 데이터 적재,
분산 배치 연산,
프로그래밍 지원
2004GFS & MapReduce2006Hadoop(Apache)
배치 쿼리2005Sawzall2008Pig & Hive(Apache)
온라인 Key-Value 엔진2006BigTable2008Hbase(Apache)
온라인 쿼리2010Dremel / F12012Impala(Cloudera)
트랜잭션 등2012Spanner??