구글 ‘빅 쿼리’는 빅 데이터를 클라우드 상에서 대화식으로 신속하게 분석해주는 클라우드 기반의 서비스입니다. 이용자가 구글 클라우드 스토리지에 분석하고자 하는 데이터를 업로드하면 웹 브라우저를 통해 해당 데이터가 분석됩니다. 따라서 기업은 별도 인프라를 구축하지 않고도 데이터를 분석할 수 있습니다.
빅 쿼리는 초당 수십억 행 단위 데이터를 다룰 수 있도록 도와주는 온라인 분석 프로세싱(OLAP) 시스템으로, 탐색 범위를 테라(Tera) 바이트 규모까지 확장할 수 있습니다. 빅 쿼리 인프라를 사용해 기업들은 자체 서버와 솔루션을 구축하지 않고도 데이터를 저장하고, 이를 실시간으로 다룰 수 있도록 초점을 맞추고 있으며, 분석하는 프로그램 역시 빅 쿼리를 통해 개발해서 서비스를 운영할 수 있습니다.
OLAP(Online Analytical Processing)
OLAP은 최종 사용자가 대규모 데이터(DW, Data Warehouse)에 직접 접근하여 대화식으로 정보를 분석하고 의사 결정에 활용하는 과정을 말합니다. DW에 저장된 대용량 데이터를 사용자가 쉽게 질의, 분석, 가공하고 보고서로 출력할 수 있도록 도와줍니다.
[ OLAP 계층 구조 ]
위의 그림은 OLAP를 통하여 DW에 직접 접근하여 질의 및 분석을 수행하는 OLAP의 계층구조를 보여줍니다. |
빅 쿼리는 현재 웹 기반의 사용자 인터페이스, REST API, 커맨드 라인 도구 등 다양한 방법을 통해 이용할 수 있으며 데이터는 구글 빅 쿼리 서버에 CSV 형식으로 저장하게 됩니다. 이용 요금은 저장된 데이터 용량 및 쿼리 볼륨에 따라 달라질 수 있습니다.
구글 빅쿼리(BigQuery) 다중 데이터 처리
테라 바이트 크기의 테이블을 연결시키는 작업은 데이터 분석가들에게는 어려운 작업입니다. 복잡한 맵-리듀스를 개발해야 하는 프로그래밍 능력이나 강력한 하드웨어를 보유하고 있어야 하며, 분석을 하기 위해서는 오랜 시간을 기다려야 합니다.
구글에서는 하둡(Hadoop) 대신에 빅 쿼리를 통해서 비용을 절감할 수 있다고 광고하고 있습니다. 하둡을 구동하기 위해서 필요한 프로그래밍 능력이나 하드웨어 시설들이 필요없으며, 단지 처리되는 쿼리에 대해서만 비용을 지불하면 됩니다.
기존의 빅쿼리의 조인 항목은 8MB이하의 데이터 집합에 대해서만 이용할 수 있었지만 새로운 조인 이치(JOIN EACH) 항목에서는 데이터 용량 제한이 없어졌습니다. 이러한 이유로 하둡의 하둡 분산 파일 시스템(HDFS)의 데이터 처리를 담당하고 있는 맵-리듀스의 대체품으로 활용될 가능성이 높습니다.
현재 많은 하둡 업무는 분산 환경에 저장되어 있는 대용량 데이터를 조합하여 작업을 진행해야 합니다. 개발자들은 이를 위해서 맵-리듀스 프로세스를 새로 작성해야 하는 번거로움이 있습니다. 이 때문에 많은 시간과 자원이 요구됩니다. 이에 반해서 조인 이치는 SQL문을 이용하여 대화식으로 처리하기 때문에 별다른 수정사항 없이 결과를 바로 확인할 수 있습니다.
BigQuery 신청 방법 및 BigQuery 사용하기
Google BigQuery 사이트에서 확인할 수 있습니다.
요금체계
https://developers.google.com/bigquery/pricing 에서 확인할 수 있습니다.
'빅데이터 > 빅데이터 처리' 카테고리의 다른 글
R 프로젝트 (0) | 2017.08.03 |
---|---|
얀(YARN) (0) | 2017.08.03 |
맵-리듀스(Map-Reduce) (0) | 2017.08.03 |
소셜분석(Social Analysis) (0) | 2017.08.03 |
텍스트마이닝(Text Mining) (0) | 2017.08.03 |