구글 빅 쿼리는 빅 데이터를 클라우드 상에서 대화식으로 신속하게 분석해주는 클라우드 기반의 서비스입니다이용자가 구글 클라우드 스토리지에 분석하고자 하는 데이터를 업로드하면 웹 브라우저를 통해 해당 데이터가 분석됩니다따라서 기업은 별도 인프라를 구축하지 않고도 데이터를 분석할 수 있습니다.

 

빅 쿼리는 초당 수십억 행 단위 데이터를 다룰 수 있도록 도와주는 온라인 분석 프로세싱(OLAP) 시스템으로탐색 범위를 테라(Tera) 바이트 규모까지 확장할 수 있습니다빅 쿼리 인프라를 사용해 기업들은 자체 서버와 솔루션을 구축하지 않고도 데이터를 저장하고이를 실시간으로 다룰 수 있도록 초점을 맞추고 있으며분석하는 프로그램 역시 빅 쿼리를 통해 개발해서 서비스를 운영할 수 있습니다.


OLAP(Online Analytical Processing)

 

OLAP은 최종 사용자가 대규모 데이터(DW, Data Warehouse)에 직접 접근하여 대화식으로 정보를 분석하고 의사 결정에 활용하는 과정을 말합니다. DW에 저장된 대용량 데이터를 사용자가 쉽게 질의분석가공하고 보고서로 출력할 수 있도록 도와줍니다.

 

[ OLAP 계층 구조 ]

 

위의 그림은 OLAP를 통하여 DW에 직접 접근하여 질의 및 분석을 수행하는 OLAP의 계층구조를 보여줍니다


빅 쿼리는 현재 웹 기반의 사용자 인터페이스, REST API, 커맨드 라인 도구 등 다양한 방법을 통해 이용할 수 있으며 데이터는 구글 빅 쿼리 서버에 CSV 형식으로 저장하게 됩니다이용 요금은 저장된 데이터 용량 및 쿼리 볼륨에 따라 달라질 수 있습니다.

 

 

구글 빅쿼리(BigQuery) 다중 데이터 처리

테라 바이트 크기의 테이블을 연결시키는 작업은 데이터 분석가들에게는 어려운 작업입니다복잡한 맵-리듀스를 개발해야 하는 프로그래밍 능력이나 강력한 하드웨어를 보유하고 있어야 하며분석을 하기 위해서는 오랜 시간을 기다려야 합니다.

 

구글에서는 하둡(Hadoop) 대신에 빅 쿼리를 통해서 비용을 절감할 수 있다고 광고하고 있습니다하둡을 구동하기 위해서 필요한 프로그래밍 능력이나 하드웨어 시설들이 필요없으며단지 처리되는 쿼리에 대해서만 비용을 지불하면 됩니다.

 

기존의 빅쿼리의 조인 항목은 8MB이하의 데이터 집합에 대해서만 이용할 수 있었지만 새로운 조인 이치(JOIN EACH) 항목에서는 데이터 용량 제한이 없어졌습니다이러한 이유로 하둡의 하둡 분산 파일 시스템(HDFS)의 데이터 처리를 담당하고 있는 맵-리듀스의 대체품으로 활용될 가능성이 높습니다.

 

현재 많은 하둡 업무는 분산 환경에 저장되어 있는 대용량 데이터를 조합하여 작업을 진행해야 합니다개발자들은 이를 위해서 맵-리듀스 프로세스를 새로 작성해야 하는 번거로움이 있습니다이 때문에 많은 시간과 자원이 요구됩니다이에 반해서 조인 이치는 SQL문을 이용하여 대화식으로 처리하기 때문에 별다른 수정사항 없이 결과를 바로 확인할 수 있습니다.

 

 

BigQuery 신청 방법 및 BigQuery 사용하기

Google BigQuery 사이트에서 확인할 수 있습니다.



요금체계

https://developers.google.com/bigquery/pricing 에서 확인할 수 있습니다.

'빅데이터 > 빅데이터 처리' 카테고리의 다른 글

R 프로젝트  (0) 2017.08.03
얀(YARN)  (0) 2017.08.03
맵-리듀스(Map-Reduce)  (0) 2017.08.03
소셜분석(Social Analysis)  (0) 2017.08.03
텍스트마이닝(Text Mining)  (0) 2017.08.03

+ Recent posts