NewSQL NoSQL처럼 높은 확장성과 성능을 갖춘 RDB를 일컫는다. SQL을 지원하고, SQL이 트랜잭션 데이터를 처리하기 위해 기업이 갖추고 있어야 할 4가지 속성인 ACID(Atomicity, Consistency, Isolation, Durability) 등록 정보를 준수합니다여기에 NoSQL의 특징인 확장성과 유연성을 데이터베이스 관리 시스템(DBMS)에 더했습니다. SQL NoSQL에서 장점만 뽑아 결합한 형태입니다.

 

 

하둡의 엔터프라이즈 시장 진입

빅데이터 표준 플랫폼은 하둡(Hadoop) 입니다하둡과 빅데이터의 엔터프라이즈 시장 진입이 계속 늦어지고 있습니다하둡 진영은 SQL 쿼리 분석을 하둡에서 보다 빠르게 수행할 수 있느냐를 열쇠로 보고 관련 기술을 개발하기 위해 노력중입니다.

 

 

SQL--하둡

‘SQL--하둡(SQL on Hadoop)” 혹은 대화형(Interactive) 쿼리 엔진(Query Engine)’ 등으로 불리는 기술은 2012년부터 본격적인 개발경쟁 양상을 보였습니다클라우데라의 임팔라(Impala), 호튼웍스의 스팅거(Stinger), R의 드릴(Drill)등이 대표적인 제품입니다. EMC 자회사 피보탈이니셔티브가 올해초 호크(HAWK)를 내 놓으며 엔터프라이즈 시장 진입에 출사표를 던졌습니다한국의 그루터도 타조(Tajo)’ 개발에 박차를 가하고 있습니다.

 

 

아파치(Apache)의 하이브(Hive)

이 같은 움직임의 중심에 아파치 하이브(Hive)가 있습니다하이브는 하둡 분산 파일 시스템(HDFS, Hadoop Distributed File System)에 저장된 데이터를 SQL과 유사한 하이브QL(HiveQL)로 분석하게 해주는 기술입니다하지만 대용량 병렬처리(MPP, Massively Parallel Processing) 기반의 데이터웨어하우스(DW)에 비하면 하이브의 쿼리속도는 현저히 느립니다질의를 던질때마다 맵리듀스 작업을 매번 수행하기 때문입니다질의를 던지고 결과를 받기까지 수시간을 기다려야 합니다이 때문에 대화형 쿼리 분석엔 적합하지 않다는 평을 받고 있습니다..

 

빅데이터 관련업계는 하이브의 이 같은 한계를 극복해야 하둡이 엔터프라이즈 시장에 진입할 수 있을 것으로 보고 있습니다하이브가 SQL에 익숙한 사람들에게는 성에 차지 않습니다.

 

 

'SQL--하둡'의 두갈래 대처 방안

진영은 두갈래로 나뉩니다하이브를 완전히 대체하는 새 기술을 쓸 것인가아니면 하이브를 개선해 속도를 높일 것인가하지만하이브는 사실상 시한부 판정을 받았다는 쪽으로 여론이 흐르고 있습니다하이브를 만든 페이스북조차 프레스토란 새로운 데이터웨어하우스(DW) 엔진을 만들었습니다.

 

 

호튼웍스의 스팅어

하이브를 살려야 한다는 입장을 가장 강력하게 내세운 회사는 호튼웍스다호튼웍스는 하이브를 최적화하고 파일 포멧 작업을 통해 하이브 쿼리속도를 100배 끌어올리겠다는 비젼을 내놓았습니다호튼웍스는 하이브야말로 SQL--하둡을 위한 최고의 선택이라며 3단계에 걸친 개선계획을 발표했습니다이것이 바로 스팅어(Stinger)입니다.

 

호튼웍스는 하이브의 성능을 35~45배 끌어올리기로 했습니다다양한 쿼리 기능을 추가하고 ORCFile 같은 파일 포맷으로 성능을 끌어올리는 것이 2단계입니다그리고 맵-리듀스 대신 아파치 테즈(Tez)란 새 기술을 이용해 하이브에 접목합니다이를 통해 최종적으로 하이브의 SQL 쿼리 속도를 100배 향상시킨다는 것입니다.

 

 

그루터의 타조

하이브를 버리고 새로운 엔진을 찾아야 한다는 진영은 타조가 대표적이다타조는 하이브를 개선하는데 한계가 명확하기 때문에대용량 SQL 쿼리 분석에 적합하지 않다는 입장입니다애초 기획 단계부터 하이브를 대체하는 새로운 엔진으로 개발되고 있습니다.

 

 

클라우데라의 임팔라

클라우데라의 임팔라도 하이브를 대체하는 엔진입니다그러나 일정 규모 이상의 데이터는 임팔라로 분석할 수 없습니다임팔라가 메모리 기반 처리 엔진이어서일정 용량 이상에선 디스크 환경의 하이브를 사용해야 합니다그러나 SQL on Hadoop이란 전체 틀에선 하이브를 버리는 쪽으로 무게를 두고 있습니다.

 

 

하이브의 한계

구도상 하이브에 주요 회사중에서 호튼웍스만 전력을 기울이는 것처럼 보인다하지만호튼웍스도 장기적으로는 하이브를 유지하자는 입장으로 단정하기는 어렵다바로 스팅어의 핵심인 테즈 때문입니다테즈는 SQL 처리시 맵-리듀스를 대신하는 새 기술입니다다수 개발자들은 맵리듀스를 사용하지 않는 하이브는 하이브가 아니다라고 반문합니다-리듀스 와 하이브 조합을 버리는 순간 하이브라 부를수 없다는 것입니다.

 

호튼웍스의 입장을 십분 받아들인다고 해도 하이브의 한계는 뚜렷합니다호튼웍스가 최근 올린 블로그가 그 한계를 스스로 보여줍니다. TPC-DS 벤치마크에서 호튼웍스 데이터 플랫폼(HDP)2.0을 사용했을 때 44배의 속도개선을 보였다고 주장했습니다그런데 그 비교 대상이 최근버전인 하이브 0.11이 아니라 하이브 0.10버전입니다.

 

하이브는 0.10 버전에서 0.11버전으로 업데이트되면서 이미 32배의 속도 개선을 이루었습니다즉 호튼웍스의 주장은2007년에 만들어져 이제 거의 사용되지 않는 버전보다 44배 빠르다는 것이다직접 버전인 0.11과 비교하면 30% 가량 빨라졌을뿐입니다.

 

 

하이브의 미래

하이브의 미래에 대한 징후는 현재 개발되는 하이브 0.12버전의 코드 기여도 통계에서도 나타납니다호튼웍스가 공개한 자료에 의하면하이브 0.12 코드라인 기여자 소속회사 통계(8 30일 기준)에서 호튼웍스는 8만 3 742라인으로 절반을 훌쩍 넘긴 비중을 차지합니다다음으로 페이스북이 3 148라인을 차지합니다세번째로 많은 기여자는 한국의KT 넥스알입니다. KT 넥스알은 12 103라인을 기여했습니다다음은 4244라인을 기부하였으며클라우데라는 3528라인을 기부했습니다.

 

주목할 부분은 페이스북과 클라우데라 입니다페이스북은 하이브 0.10을 내 놓는데 가장 많은 비중을 차지했던 회사입니다그런 페이스북이 점차 하이브에 대한 관심을 줄여가고 있는 것입니다호튼웍스와 함께 아파치 하둡 프로젝트의 주요 기여자인 클라우데라의 기여도는 호튼웍스의 2%에 불과합니다주요 기여자의 참여축소와 기타 기여자의 비중도 확연히 줄었습니다.

 

 

하둡 진영이 ‘SQL--하둡에 열을 올리는 이유

하둡 생태계는 왜 하이브와 SQL on Hadoop에 이토록 열을 올리고 있는가이는 SQL을 쓸수 있는냐가 엔터프라이즈 시장에서 하둡을 사용하느냐로 직결되기 때문입니다.

 

엔터프라이즈는 데이터웨어하우스(DW) 시스템과 고급 분석도구비즈니스 인텔리젼스(BI)를 사용하는 집단입니다기업의 분석가 집단이 주요 사용자입니다이들은 정형화된 데이터를 이용해 여러 분석을 시도하는데간단한 SQL 쿼리만 활용할 뿐 복잡한 프로그래밍 능력은 갖고 있지 않습니다프로그래밍은 IT 부서의 일이라 여깁니다분석가는 분석을 할 뿐 기술엔 관심이 없습니다.

 

기업 분석가 집단이 보기에 하둡은 생소하고 어려운 기술일 수밖에는 없습니다자신들은 잘 알지도 못하는 다양한 프로그래밍 작업을 요구하기 때문입니다현존 데이터 분석도 만족스러운데 굳이 본업도 아닌 프로그래망까지 하려니 당연히 필요성을 못 느낍니다. SQL과 유사한 도구인 하이브도 그 속도가 너무 느립니다.

 

하이브를 만들어낸 회사는 인터넷서비스 회사인 페이스북입니다하이브를 가장 많이 활용하는 회사도 페이스북입니다하둡과 하이브를 다양하게 사용하는 회사도 야후넷플릭스트위터페이스북과 같은 인터넷 서비스 회사들은 여러 사람이 사용하기 바라는 마음으로 하둡과 하이브를 만들지 않았습니다이 회사의 개발자들은 자사의 서비스를 개선하는 과정에서 SW를 만들고그를 외부에서도 쓸 수 있게 공개한 것 뿐입니다페이스북이 만든 하이브라면 페이스북 개발자가 활용하기 좋은 수준 정도로 만들어집니다엔터프라이즈 기업의 기대치와 당연히 거리가 있습니다.

 

개발자 입장에선 하둡과 하이브를 이용해 분석하는데 거리낌이 적습니다개발자로서 전문 분석가는 아니지만예전에 하지 못했던 분석을 할 수 있게 됐으니 그 정도 성능이면 충분하다고 느끼는 것입니다.

 

엔터프라이즈의 분석가와 인터넷 서비스 업체의 개발자 사이엔 높고 두터운 벽이 존재합니다빅데이터와 하둡이 엔터프라이즈 시장으로 진입하려면 기업 내 분석가를 설득해야 합니다데이터웨어하우스(DW)와 성능도 비슷하고 분석도 쉽다는 메시지를 앞세워야 합니다. SQL--하둡은 바로 이 벽을 지나는 문입니다.

+ Recent posts