출처 : 대용량 데이터 분석 및 처리를 위한 Hadoop & NoSQL
1. Apache Hadoop 생태계 솔루션
구분 | 이름 | 설명 | 링크 |
웹 크롤링 | Nutch | 웹 검색 | http://nutch.apache.org |
수집 | Chukwa | 로그 수집/분석/출력/모니터링 | http://incubator.apache.org/chukwa |
Sqoop | RDBMS 데이터 수집 | http://sqoop.apache.org | |
Flume | 이벤트 데이터 수집 | http://flume.apache.org | |
Kafka | 데이터 수집 | http://kafka.apache.org | |
S4 | 이벤트 데이터 처리 | http://incubator.apache.org/s4/ | |
데이터 직렬화 | Thrift | 데이터 직렬화 | http://thrift.apache.org |
Avro | 데이터 직렬화 | http://avro.apache.org | |
적재 | HDFS | 하둡 분산 파일 시스템 | http://hadoop.apache.org |
Fuse-DFS | 마운터블 HDFS | http://wiki.apache.org/hadoop/MountableHDFS | |
Hcatalog | 테이블 관리 | http://incubator.apache.org/hcatalog/ | |
데이터 모델링 및 처리 분석 | MapReduce | 데이터 분석 엔진 | |
Mahout | 데이터 마이닝 | http://mahout.apache.org | |
Giraph | 그래프 분석 | http://giraph.apache.org | |
Hama | 병렬 컴퓨팅 | http://hama.apache.org | |
질의 지원 | Pig | 데이터 분석 언어 | http://pig.apache.org |
Hive | 데이터 쿼리 언어 | http://hive.apache.org | |
워크플로우 지원 | Oozie | 워크플로우 관리 | http://oozie.apache.org |
실시간 분석/검색 | Hbase | NoSQL | http://hbase.apache.org |
Lucene | 검색엔진 | http://lucene.apache.org/core/ | |
모니터링 및 관리 | Zookeeper | 클러스터 관리 | http://zookeeper.apache.org |
Ambari | 환경설정, 모니터링 | http://incubator.apache.org/ambari | |
Whirr | 클러스터 배포 | http://whirr.apache.org | |
Bigtop | 패키지 개발 | http://bigtop.apache.org |
2. 구글(Google)과 하둡(Hadoop)의 솔루션 공개 비교
오픈소스(Hadoop 진영) | ||||
기능 | 발표년도 | 이름 | 발표년도 | 이름(제공처) |
대용량 데이터 적재, 분산 배치 연산, 프로그래밍 지원 | 2004 | GFS & MapReduce | 2006 | Hadoop(Apache) |
배치 쿼리 | 2005 | Sawzall | 2008 | Pig & Hive(Apache) |
온라인 Key-Value 엔진 | 2006 | BigTable | 2008 | Hbase(Apache) |
온라인 쿼리 | 2010 | Dremel / F1 | 2012 | Impala(Cloudera) |
트랜잭션 등 | 2012 | Spanner | ? | ? |
'IT_AI_DeepLearning > Hadoop Eco' 카테고리의 다른 글
[펌] 멀티테넌트 Hadoop 클러스터 운영 경험기 (0) | 2016.09.20 |
---|---|
[펌] Apache Hadoop이란 무엇인가? (0) | 2013.07.16 |
HDFS - [오류] TaskTracker, DataNode 구동시 문제, 해결 방법 (0) | 2013.07.13 |
[펌_Hadoop] 거침없이 하둡 활용해 보기 (0) | 2013.07.13 |