'빅데이터/빅데이터 이해' 카테고리의 글 목록 (2 Page)

빅데이터/빅데이터 이해

[1편] ‘자원’ : 활용할 수 있는 빅데이터 발견하기 2017.08.03
‘일각고래 프로젝트’ (2012년 미국 대선) 2017.08.03
구글(Google) 의 “독감예측시스템” 2017.08.03
공공데이터 개방시대 2017.08.03
빅데이터의 분류 2017.08.03
빅데이터 시대의 도래 2017.08.03

[1편] ‘자원’ : 활용할 수 있는 빅데이터 발견하기

2017. 8. 3. 09:25

성공적인 빅데이터 활용을 위해서는 데이터의 자원화, 데이터를 가공하고 분석 처리하는 기술, 마지막으로 데이터의 의미를 통찰하는 인력등 3가지 분야의 전략 수립이 필수적입니다.

외부와 내부에 존재하는 빅데이터를 확보하고 관리, 처리하는 전략 수립이 중요합니다. 빅데이터를 핵심 자원으로 인식하고 리소스를 키우는 것 또한 중요합니다. 데이터의 품질은 데이터 활용 결과에 중대한 영향을 미치므로 빅데이터 자원의 체계적 수집과 관리는 신뢰성 확보에 중요한 영향을 미칩니다.

빅데이터 수집기술은 조직 내부와 외부의 분산된 여러 데이터 소스로부터 필요한 데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된 기술로 일반적인 조직 내부에 존재하는 정형 데이터(Structured Data)와 조직 외부에 존재하는 트위터(Twitter), 페이스북(Facebook), 미투데이(me2day) 와 같은 비정형 데이터(Unstructured Data)를 수집하는 기술로 분류할 수 있습니다.

전통적으로 유닉스(Unix)에서의 로그 수집은 syslog을 사용하고 있으며, 자바에서는 Log4j를 많이 사용하고 있습니다. 문제는 각종 서비스들은 이러한 표준화된 도구에서 제공하는 규약을 지켜서 로그를 쌓아야 합니다. 빅데이터 분야에서도 흩어져 있는 각종 로그 데이터를 일관된 방법으로 수집할 수 있는 로그 수집 프레임워크(Log Aggregator Framework)가 필요합니다.

① RDBMS에서의 데이터 수집

기업에서 관리하고 있는 데이터베이스(DB, Database)에 저장되어 있는 정형데이터를 수집하는 기술로는 아파치에서 만들어진 스쿠프(Sqoop) 프로그램이 있습니다.

아파치 스쿠프(Apache Sqoop)

관계형 데이터베이스(RDBMS, Related Database Management System)에 저장되어 있는 경우라면 쉽고 유용하게 사용할 수 있는 오픈소스가 아파치 스쿠프(Apache Sqoop)입니다. 스쿠프는 Sql to Hadoop의 약자로, 간단한 CLI(Command Line Interface)로 오라클(Oracle), MySQL 등의 RDBMS의 특정 테이블 또는 특정 조건에 맞는 데이터를 HDFS(Hadoop Distributed File System)로 쉽게 옮길 수 있으며, 하이브(Hive), 피그(Pig)를 통해서 내용을 바로 확인할 수 있습니다. 반대로 HDFS에 저장되어 있는 데이터를 RDBMS로 옮기는 것도 가능합니다.

② 로그 파일 수집

로그 파일이 서비스의 특정 서버의 특정 위치에 파일을 생성하고 있는 경우나 RPC로 로그를 전달할 경우에 적용이 가능한 여러가지 오픈소스들이 있다. 우선 고려할 사항은 로그를 실시간(Real-time)으로 수집할 것인지? 아니면 배치(Batch)로 수집할 것인지? 에 따라서 오픈소스의 선택과 옵션이 달라지게 된다.

아파치 플룸(Apache Flume)

플룸(Flume)은 클라우데라(Cloudera)에서 개발한 오픈소스 로그 수집 소프트웨어로 아파치 인큐베이터를 통하여 안정화를 거치며Flume-NG로 명명되었습니다. 데이터의 수집을 위한 프레임워크로 다양한 로그데이터 수집 및 모니터링이 가능하고 실시간 전송도 지원합니다. 자바로 구현되어 있기 때문에 다양한 운영체제에 설치가 가능하며, 노드의 추가 및 관리가 손쉽고 분선처리 시스템의 로그 수집에 적합하여 하둡(Hadoop)과 조화롭운 작업이 가능합니다.

다양한 소스로부터 데이터를 수집하여 전송할 수 있는 기능을 있으며, 아키텍처가 단순하고 유연하며 확장 가능한 데이터 모델을 제공하여 실시간 분석 프로그램을 쉽게 개발할 수 있습니다.

아파치 척와(Apache Chukwa)

하둡(Hadoop) 프로젝트의 서브 프로젝트로 진행중인 오픈소스 프로젝트로 분산된 서버의 로그를 하둡 파일 시스템에 저장하고 하둡 맵리듀스(MapReduce)를 이용해 로그의 분석을 수행하는 솔루션입니다. 척와는 범용적인 로그 수집과 로그 관리를 위한 솔루션으로 개발되었지만 하둡 클러스터의 로그와 서버의 상태 정보를 관리하는 기능도 들어 있습니다.

하둡 역시 분산된 환경에서 수십 ~ 수천대 규모로 운영되기 때문에 하둡 데몬에서 출력하는 로그와 사용자가 수행시킨 작업에서 출력하는 로그는 각 서버에 저장이 됩니다. 하둡을 이용해 작업을 수행하다 보면 사용자 로그를 보기 위해 여러 노드를 접속해야 하는 불편함이 있는데, 척와를 이용하면 쉽게 로그를 수집할 수 있어서 편리합니다.

페이스북 스크라이브(Facebook Scribe)

페이스북(Facebook)이 개발하여 오픈소스화 시킨 분산형 로그 수집 서버 시스템입니다. 페이스북 자체 Scaling 작업을 위해 설계되어 현재 매일 수백억 건의 메시지를 처리하고 있습니다. 클라이언트와 서버의 타입에 상관없이 다양한 방식으로 로그를 읽어 들일 수 있습니다.

웹 크롤러(WebCrawler)

웹 크롤러는 조직적, 자동화 된 방법으로 월드 와이드 웹(WWW)을 탐색하는 컴퓨터 프로그램입니다. 웹 크롤러에 대한 다른 용어로는 자동 인덱스, 봇(Bot), 웜(Worm), 웹 스파이더(Web Spider), 웹로봇(Web Robot) 등이 있습니다.

검색엔진과 같은 사이트에서는 데이터를 최신 상태로 유지하기 위해서 웹 크롤링을 합니다. 웹 크롤러는 방문한 사이트의 모든 페이지의 복사본을 생성하는데 사용되며, 검색 엔진은 이렇게 생성된 페이지들을 빠르게 검색하기 위해서 인덱싱을 실시합니다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 피이지의 특정 형태의 정보를 수집하는데도 사용됩니다.

RSS(Really Simple Syndication) Feed

특정 사이트에 매일 방문하여 새로운 기사가 있는지를 확인하는 것은 매우 번거롭습니다. 특히 새 기사가 매일 또는 정기적으로 올라오는 것이 아니라, 불 규칙적으로 게시되는 경우는 더욱 그렇습니다. 사이트에 직접 방문하지 않고서도 새로운 기사들이 올라올 때면 자동적으로 확인할 수 있다면 편리할 것입니다.

RSS(Really Simple Syndication)는 뉴스나 블로그 사이트에서 주로 사용하는 쿈텐츠 표현 방식입니다. 웹 사이트 관리자는 RSS 형식으로 웹 사이트 내용을 보여 주며, 이 정보를 받는 사람은 다른 형식으로 이용할 수 있습니다. RSS가 등장하기 전에는 원하는 정보를 얻기 위해 사이트를 직접 방문하여야 했으나, RSS 관련 프로그램을 이용하여 자동 수집이 가능해졌기 때문에 사용자는 각각의 사이트 방문없이 최신 정보들만 선택할 수 있습니다.

'빅데이터 > 빅데이터 이해' 카테고리의 다른 글

[3편] ‘인력’ 데이터 사이언티스트(Data Scientist) 확보 (0)	2017.08.03
[2편] ‘기술’ 빅데이터 처리 기술(Process Technology) (0)	2017.08.03
‘일각고래 프로젝트’ (2012년 미국 대선) (0)	2017.08.03
구글(Google) 의 “독감예측시스템” (0)	2017.08.03
공공데이터 개방시대 (0)	2017.08.03

‘일각고래 프로젝트’ (2012년 미국 대선)

2017. 8. 3. 09:25

오바마의 재선은 빅데이터’를 활용한 개인 맞춤형 선거전략

2012년 미국 45대 대통령 선거에서 오바마 대통령이 재선에 성공했다. 기존 언론들은 박빙을 예상했지만 의외로 큰 차이로 승패가 결정되었다. (332 : 206). 그 이유로는 “빅데이터”를 활용한 선거 운동이 눈길을 끌었다. 버락 오바마 대통령 재선 캠프는 유권자들의 다양한 개인형 맞춤 정보를 파악해 선거 운동에 활용하는 알고리즘을 개발해서 유권자들의 마음을 얻는데 이용했다.

미국의 경우 대통령 선거는 사전 등록제이다. 이 때문에 투표자의 성향을 미리 파악하기가 쉽다. 유권자들의 개인 정보를 파악하면 개개인을 상대로 정밀한 맞춤형 선거 운동을 펼칠 수 있다. 소유 차종과 구독하는 신문, 심지어 아기의 기저귀 브랜드와 교회 참석 여부 등을 파악해 유권자 개개인의 컴퓨터 스크린에 그에 맞는 맞춤식 배너를 내보내는 형식으로 선거 운동을 벌인다.

‘마이 버락 오바마 닷컴(mybarackobama.com)’

오바마 재선 캠프는 2008년 대통령 선거때에 활용한 가상 캠페인 센터인 ‘마이 버락 오바마 닷컴(mybarackobama.com)’을 가동시켜 지지자들이 자발적으로 자신들의 성별, 나이, 거주지 등의 기본적인 정보와 코멘트 그리고 사진과 비디오 포스트를 제공하도록 유도하였다. 취합된 정보는 시카고에 있는 본부로 보내어지고, 캠프에서는 가입자의 재정 상황, 취미 등을 파악하기 위해 소셜 네트워크 서비스(SNS)를 뒤진다. 또한 캠프에서는 오바마 대통령의 페이스북 계정과 친구 관계를 맺은 사람들의 인맥을 파악하고 주변인들의 자료를 입수하여 새로운 데이터베이스를 구축하였다.

이 사이트는 유권자의 정보를 수집하는 데서 그치지 않고 지지자가 오바마 대통령을 위해 직접 발로 뛰도록 독려하였다. 지지자가 홈페이지에 가입하면서 입력한 우편번호를 활용하여 지지자의 거주지 인근에서 조직된 지지 모임과 행사 정보를 보여주는 것이다. 지지 모임은 지역, 성적 지향, 인종, 성별 등 다양한 분야에 걸쳐 여러 개로 조직되어 있다. 지지자들은 그 중에서 마음에 드는 모임을 골라 편안한 마음으로 참석하면 되었다.

‘그들이 자신을 아는 것보다 우리가 더 많이 알자’

오바마 재선 캠프는 선거 시작 2년전부터 빅데이터 전문가를 찾는 공고문을 게시하였다. ‘2012년 11월까지 일할 예측모델 과학자, 데이터마이닝(Data Mining) 분석가 구함. 유일한 목표는 오바마 대통령 재선’

오바마 재선 캠프를 총 지휘한 시카고 사단의 책임자 짐 메시나(Jim Messina)는 이 과정을 통해서 빅데이터 분석 전문가들을 영입했고 레이드 가니도 포함되었다. 레이드 가니는 소비자 패턴을 분석해서 슈퍼마켓 매출 상승에 기여했던 사람으로 오바마 캠프의 분석 팀장으로 임명되었다.

여기서 중요한 점은 오바마 재선 캠프의 수장인 짐 메시나가 빅데이터를 수집하는 전문가나 인프라 관련 전문가 아닌 분석 전문가를 팀장으로 임명한것이다. 빅데이터에서 수집된 데이터를 분석하고 활용할 수 있는 데이터 과학자(Data Scientist)의 능력이 얼마나 중요한지가 입증된 것이다.

데이터 분석팀은 유권자, 기부자, 자원봉사자의 명단, 휴대폰 번호, 소셜네트워크서비스(SNS) 계정 등 활용 가능한 모든 정보를 모아 일원화된 시스템을 만들었다. 오바마 캠프는 이 시스템을 기반으로 나이, 성별, 인종, 주소, 투표기록 등 유권자 정보를 종합해 전화와 이메일 등으로 개인 맞춤형 접근 방식을 사용하는 등 효율적인 선거운동을 했다. 접촉해야 할 유권자 목록도 이름이 아닌 설득 가능한 순서에 따라 작성했다.

“텍스트 투 도네이트(Text To Donate)” 프로그램

오바마캠프는 빅데이터 분석을 통해서 선거에 필요한 모금액이 10억달러가 필요하며 이 금액을 모금하기 위해서는 누구의 이름으로 이메일을 보냈을 때 후원금을 받을 가능성이 높은지를 분석해 보내는 사람의 서명을 받는 사람이 상황에 따라서 미셜 오바마 또는 조지 바이든 등으로 변경을 하였다. 이를 통해서 기존 모금 방식보다 4배 이상 높은 효과를 거뒀다고 한다.

유권자를 위한 맞춤형 홍보 전략 ‘마이크로 타겟팅(Micro Targeting)’

오바마 재선 캠프에서 유권자들에게 보내는 이메일에는 재미있는 특징이 있다. 성별, 나이, 거주지, 직업, 관심사, 소비 패턴 등 유권자 개개인의 특성에 따라 이메일의 내용이 달라지는 것이다. 또한 유권자가 이메일을 받고 보이는 반응에 따라 추후에 받을 이메일의 내용이 다시 수정된다.

‘개인 맞춤형 홍보 방식’, 즉 ‘마이크로 타겟팅’ 이다. 같은 날 보내는 이메일의 종류 또한 많을 때는 600여 종류의 다른 내용이 담긴 이메일이 발송되었다고 한다. ‘마이크로 타겟팅’이 가능하도록 재선 캠프는 정치 홍보회사인 ‘아리스토텔레’로부터 구입한 유권자 정보에 교육 정도, 재산 등의 개인정보를 추가해 맞춤형 메시지를 어떻게 보내야 할지에 대해서 심도있는 연구를 하였다.

서부는 조지 클루니(George Clooney), 동부는 사라 제시카 파커(Sarah Jessica Parker)

오바마 재선 캠프는 영화배우 조지 클루니가 미국 서부의 40대 여성들에게 막대한 영향력을 끼친다는 것을 알았다. 이 여성들은 오바마 지지자인 클루니가 여는 모금행사에 참여하여 막대한 선거 자금을 냈다.

재선 캠프는 동부에서도 비슷한 행사를 열고 싶었다. 캠프가 뉴욕지역 40대 여성들이 함께 저녁식사를 하기 위해 돈을 낼 가능성이 가장 높은 인사로 뉴욕 배경의 드라마 ‘섹스 앤 더 시티’의 여주인공 사라 제시카 파커를 선택했다. 사라 제시카 파커는 뉴욕의 부자동네 웨스트빌리지에 있는 자신의 집에서 오바마 대통령의 모금행사를 개최하였고 성공적인 모금행사를 개최하였다.

여성층 확보를 위해 TV 드라마에 광고 집중

오바마 재선 캠프는 선거 막판에 초박빙 지역에서의 TV 광고전에도 빅데이터를 활용하였다. 뉴스와 시사 프로그램에 광고를 집중하던 기존 홍보 공식을 깨고 초박빙 지역중 하나였던 마이애미 지역에서 35세 이하 여성들이 자주보는 TV 드라마에 광고를 집중하여 유동층이 많은 여성층을 흡수하였고, 오바마 대통령 자신이 이름도 생소한 인터넷 블로그 뉴스 사이트인 ‘레디트’와의 인터뷰에 응한것도 이 매체 이용자들이 오바마 지지도가 높다는 빅데이터 결과 때문이였다.

일각고래(Narwhal) 프로젝트

일각고래 프로젝트는 ‘풀 데이터 통합(full data integration)’ 시스템을 구축하는 것이다. 유권자의 개인 정보, 기부 내역, 자원봉사 참여 여부들을 한곳에 저장하고 관리하고 처리하는 시스템으로 전문가들은 역대 선거와 차별화되는 유권자 정보를 담은 정보망으로 가장 강력한 무기라고 평가하고 있다.

2008년 선거 당시 오바마 캠프가 수집한 개인정보는 많았지만 의미없는 데이터가 많았다. 오바마 캠프의 허브 사이트인 ‘버락 오바마 닷컴(mybarackobama.com)’이나 지역 사무실에서 수집한 개인정보 중에는 나이, 성별, 선호 정당 등의 기본적인 유효한 정보가 빠진 데이터들이 많았다. 또한 유권자 분석을 위해 미국 유권자 정보 전문 판매회사에서 구입한 정보도 함께 활용되었지만 데이터들은 개별적으로 관리되었고 이로 인하여 분석 또한 유권자들의 개인적인 특성을 제대로 반영하지 못하였다.

2008년 오바마 캠프는 데이터 통합 문제를 해결하기 위하여 디지털 캠페인 전문회사인 ‘블루 스테이트 디지털’사에게 ‘보트빌더(VoteBuilder)’ 데이터 베이스 개발을 의뢰하였다. 미국 전역 유권자들을 대상으로 구축되기 시작한 보트빌더 데이터베이스에는 ‘버락 오바마 닷컴 웹 사이트’에 가입한 사람들의 정보, 문자 메시지 발송 후 응답 내용 등이 실시간으로 저장하였다.

또한 자원 봉사자 정보는 ‘빌드 더 호프(Build the Hope)’ 데이터베이스에서 보관하였고 기부금 정보는 다른 데이터베이스에 저장되었다. 그리고 각각의 데이터베이스는 서로 다른 팀들이 개별적으로 관리하고 있었다. 이 당시 오바마 선거 캠프에서 축적한 데이터는 어마한 분량이었다. 유권자 1억 7천만명, 온라인 서포터 1천 3백만명, 정치헌금 기부자 3백만명의 정보를 구축하고 있었다.

오바마 캠프는 자신들이 보유하고 있는 빅데이터를 통합하기 위해 많은 노력을 기울였지만 성공하지 못한 것으로 보인다. 2008년 당시에는 빅데이터를 하나로 통합하여 분석할 수 있는 기술력을 확보하지 못했기 때문이다.

우리가 기억해야 할 것은 2008년도에 오바마 캠프에서 빅데이터를 처리하기 위해서 많은 인력들을 동원하여 여러가지 시도를 하였으며 비록 만족스러운 성과를 도출하지는 못했지만 이러한 노력들이 2012년 오바마 대통령의 재선에 밑바탕이 되었다는 것은 누구도 부인할 수 없는 사실이다.

2012년 오바마 재선 캠프에서는 ‘일각고래 프로젝트’을 수행하여 자신들이 보유하고 있는 분산된 데이터베이스들을 통합하는 작업을 진행하였다. 분산된 데이터베이스를 하나로 연결하고 수집된 정보들을 실시간으로 입력할 수 있는 인프라를 구축한 것이다. 이를 통해서 유권자 성향을 정확히 파악하고 선거운동에 불필요한 시간과 비용을 절약할 수 있었다. ‘일각고래 프로젝트’를 통해서 빅데이터를 분석할 수 있는 인프라를 구축한 것이 오바마 대통령을 재선에 성공시킬 수 있었던 핵심적인 이유인 것이다.

'빅데이터 > 빅데이터 이해' 카테고리의 다른 글

[2편] ‘기술’ 빅데이터 처리 기술(Process Technology) (0)	2017.08.03
[1편] ‘자원’ : 활용할 수 있는 빅데이터 발견하기 (0)	2017.08.03
구글(Google) 의 “독감예측시스템” (0)	2017.08.03
공공데이터 개방시대 (0)	2017.08.03
빅데이터의 분류 (0)	2017.08.03

구글(Google) 의 “독감예측시스템”

2017. 8. 3. 09:24

빅데이터의 시대는 SoLoMoMe(Social, Local, Mobile, Personalized)의 시대

빅 데이터의 시대는 SoLoMoMe(Social, Local, Mobile, Personalized)의 시대이다. 소비자들은 소셜 미디어에 대한 의존도가 높고, 지역 정보가 풍부해지며, 모바일 스마트폰을 사용하고, 개인화된 맞춤 서비스를 원한다.

구글(Google) 검색 데이터를 활용한 전 세계 독감 유행 수준 예측

구글이 독감을 예보하고 있습니다. 그것도 미국 보건 당국보다 1~2주 더 빠르게 실시간으로 서비스를 제공하고 있습니다. 구글에서 이러한 예측 시스템을 개발할 수 있었던 근본적 토대위에는 구글 검색사이트가 있었기 때문입니다. 구글 검색사이트는 한국과 중국등 몇 개국을 제외하고는 전세계적으로 가장 인기 있는 검색사이트입니다.

사람들이 구글 검색사이트에서 많은 검색어들을 입력하는데 입력된 검색어들을 분석하여 ‘감기’와 관련된 의미있는 연관 단어들의 검색 빈도수를 파악하여 특정지역의 독감 유행 수준을 미리 예측하는 시스템입니다.

구글(Google)의 창의적 문화 '20% Project'

구글 '독감 예측 시스템' 이 어떻게 탄생되었는지에 대해서 간단히 소개를 드리려고 합니다. 구글은 그들 회사만의 문화가 있습니다. 그 중에 하나가 '20% Project' 라는 것입니다. 근무 시간 중 20%의 시간을 자신의 프로젝트가 아닌 다른 프로젝트에 참여하거나 새로 구상할 수 있도록 인정해 주는 시스템이다. '20% Project'는 구글의 모든 직원이 참여할 수 있는 제도는 아닙니다. 먼저 개발자여야 하면 구상한 프로젝트가 좋아야합니다.

'20% Project'는 새로운 무엇인가를 추진해보고 싶어하는 개발자들의 욕구를 충족 시켜주고 있으며, 창의적 제품을 개발할 수 있는 기회를 주기도 한다. 개발자들의 경우에는 평소에 자신의 생각하고 있던 아이디어를 회사 지원을 통해서 부담감없이 실현할 수 있는 제도이기도 하며 성공할 경우 인센티브를 받을 수도 있습니다.

우리가 잘 알고 있는 지메일(G-mail)도 몇몇 개발자들이 모여서 더 좋은 이메일 서비스를 만들어보자는 취지로 시작한 '20% Project' 에서 만들어진 제품중에 하나입니다.

구글의 '독감 예측 시스템'도 몇몇의 소프트웨어 엔지니어들이 검색어 트렌드를 심도있게 분석해 실생활에서 일어나는 현상을 정확히 파악할 수 있는 모델을 개발하려고 시작된 프로젝트입니다. 시스템의 정확도를 높이기 위해서 2003년부터 개별 검색어 수천억개를 분석해 ‘감기’와 관련된 45개의 단어들을 찾아내었으며 이를 분석함으로써 독감의 유행 수준을 예측하는 시스템을 개발할 수 있었습니다.

매년 독감 시즌마다 특정 검색어 패턴이 눈에 띄게 나타나는 것을 발견하고는 이 검색어들을 미국 질병통제예방센터(CDC)의 데이터와 비교해 보았는데, 주간 검색 빈도와 독감 증세를 보인 환자 수 사이에 매우 밀접한 패턴을 발견한 것입니다. 이를 통해서 감기와 관련된 단어의 검색 횟수를 통해 감기 관련 질병에 걸린 사람의 수를 예측할 수 있었습니다.

독감 예측을 실시간으로 제공

질병통제예방센터(CDC)가 실제 의사들과 환자들을 조사해 감기에 관한 정확한 동향을 분석하고 있는데, 왜 굳이 구글의 독감예측시스템이 필요할까요? 기존의 감기 감시 시스템은 데이터를 집계하고 발표하는데 1~2주 정도의 시간이 소요되지만, 구글 검색어는 이 같은 과정을 자동화를 통해 실시간으로 처리할 수 있기 때문입니다.

앞에서도 말을 했지만 구글에서 몇몇 엔지니어들이 '독감 예측 시스템' 을 개발할 수 있었던 이유는 전 세계적으로 사용되고 있는 검색사이트를 가지고 있었기 때문입니다. 많은 사람들이 애용하고 있어서 전수 조사를 할수 있었으며 예측 또한 높았습니다. 흥미로운 사실은 구글에서는 우리나라에 대한 독감 예측을 하지 않습니다. 이는 당연한 결과인데, 우리나라 사람들은 구글 검색사이트보다 네이버(Naver)와 다움(Daum)을 더 많이 이용합니다.

현재 대한민국 검색사이트의 점유율은 2013년 8월 기준으로 네이버(Naver)가 77.4%, 다음(Daum)이 15.37%, 구글(Google)은4.32%입니다. 구글이 '독감 예측 시스템'을 제공하고 싶어도 4%대의 표본으로는 정확한 예측이 불가능한 것이 현실입니다. 한국에서 신뢰성있고 정확도가 높은 서비스를 제공할 수 있는 회사는 80%의 표본조사가 가능한 네이버(Naver) 이외에는 없습니다.

개인적으로 빠른 시간안에 네이버에서 독감 예측 뿐만 아니라 다양한 종류의 서비스들이 많이 제공되기를 바래봅니다.

'빅데이터 > 빅데이터 이해' 카테고리의 다른 글

[1편] ‘자원’ : 활용할 수 있는 빅데이터 발견하기 (0)	2017.08.03
‘일각고래 프로젝트’ (2012년 미국 대선) (0)	2017.08.03
공공데이터 개방시대 (0)	2017.08.03
빅데이터의 분류 (0)	2017.08.03
빅데이터 시대의 도래 (0)	2017.08.03

공공데이터 개방시대

2017. 8. 3. 09:24

오픈데이터 헌장 발표 (Open Data Charter)

2013년 6월 17일 G8 서밋의 정상회의 공동 선언문에서 “오픈데이터 헌장(Open Data Charter)” 합의 사항에 대한 내용을 발표한다. 공동 성명에서 오픈데이터를 “정보시대의 중요한 자원”으로 평가했으며, 오픈 데이터의 활용이 시민 생활의 질적 향상과 혁신, 경제 성장과 고용 창출로 이어질 것이라고 강조를 했다.

또한 오픈 데이터를 이용하기 쉽고 무료로 제공하여 기업과 개인에게 새로운 활력을 가져다 줄 것으로 평가했다. 합의된 다섯 가지 원칙에 대해서 간략하게 설명하자면

원칙 1: 데이터 공개 원칙 (Open Data by Default)

* 사회와 경제적 측면에서 오픈 데이터의 무료 접근과 재 사용은 소중한가치를 지니고 있다. 정부가 기본적으로 데이터 공개를 지향한다는 것에 동의한다. 또한 데이터 특성에 따라서 공개할 수 없다는 점 또한 인정한다.

원칙 2: 질과 양 (Quality and Quantity)

* 정부와 공공영역은 시민이 관심을 둘 만한 많은 양의 정보를 소유하고 있다.

* 적절한 시기에 범용적이고 정보가치가 있는 오픈 데이터를 공개한다.

* 가능하다면 데이터는 수정하지 않은 원본을 공개하며, 세밀한 정보까지도 이용할 수 있도록 한다.

* 모든 사람이 알기쉽게 이용할 수 있도록 단순하고 명확한 언어로 제공한다.

* 데이터의 특징과 개선점을 평가할 수 있고, 데이터의 분석 한계를 알수 있도록 정보를 제공한다.

* 신속한 정보 공개를 원칙으로 하며, 사용자들이 자신의 생각을 올려서 양질의 오픈 데이터가 되도록 지속적으로 수정한다.

원칙 3: 모든 사람이 이용할 수 있는 오픈 데이터 (Useable by All)

* 모든 사람이 수집하고 이용할수 있는 방법으로 데이터를 공개한다.

* 오픈 데이터는 반드시 무료로 제공해야 한다.

* 오픈 데이터 공개시 데이터의 접근을 막을 수 있는 관료주의적 통제나 행정적 장벽이 있어서는 안 된다.

* 오픈데이터를 다양하게 제공하여 모든 사람이 이해하도록 제공하며, 컴퓨터 처리가 가능하도록 한다.

원칙 4: 행정 개선을 위한 데이터 공개 (Releasing Data for Improved Governance)

* 오픈 데이터는 민주주의 제도를 강화하고 피드백을 통한 시민의 니즈를 반영한 정책 입안이 되도록 지속적으로 수정한다.

* 오픈 데이터의 혜택을 전 세계인이 누리도록 하며, 기술적 전문성이나 경험은 공유한다.

* 모든 처리 과정을 온라인으로 기록하며, 데이터의 수집, 발행 과정에 대한 투명성을 확보한다.

원칙 5: 혁신을 위한 데이터 공개 (Releasing Data for Innovation)

* 정부가 데이터를 공개함으로써, 많은 사람들과 회사들을 통해서 많은 경제적 파생효과가 발생할 것이다.

* 소프트웨어 개발자와 오픈 데이터 육성 기관이 오픈 데이터의 가치를 증명하도록 한다.

* 가독성이 높은 형태로 데이터를 제공하여 다음 세대의 기술 혁신가들의 능력을 강화한다.

오픈데이터는 국가나 공공기관에서 보유한 데이터를 무료로 모든 사람과 공유하는 것을 말한다. 공공 데이터의 개방은 인간이나 조직의 생활을 개선시키며, 사람들에게 자국의 천연자원이 어떻게 사용되며, 토지가 어떻게 거래되고 있으며 이용되는지 등의 인식을 향상시킨다. 무료로 된 정부 데이터는 사람들이 보다 쾌적한 현대 생활을 보내기 위한 수단이나 제품을 만들기 위해 사용될 수 있으며, 고용창출도 유발한다.

G8각국은 2013년 연말까지 이행을 위한 활동계획을 수립하며, 2014년 차기 회담에서 진행사항을 평가한다.

개방형 행정 개혁 프로젝트 정부 3.0

2013년에 발표한 “개방형 행정 개혁 프로젝트 정부 3.0” 의 핵심 목표는 국민과 정부, 부처와 부처, 민과 관 사이의 벽을 허무는데 중점을 두고 있다. 국민의 접근을 제한했던 공공정보를 국민과 기업에게 모두 개방하고 이 정보를 자유롭게 활용해 창조경제의 새로운 동력원으로 활용하려는 것 같습니다.

이를 위해서 정부는 공공정보의 사전공개 규모를 대폭 확대합니다. 연간 31만건 수준이던 정보를 1억건까지 늘릴 예정이며, 2013년 6월 현재 2,260종 정도인 공공데이터 개방 건수도 2017년까지 6,150종으로 확대합니다.

민간의 수요가 많은 분야부터 우선 개방하는데 교통/지리/교육/복지/재정정보등이 포함되며 식품 위생이나 치안 등 국민생활에 영향이 큰 정보와 예산집행 내용등 행정감시를 위해 필요한 정보가 주 대상입니다.

예를 들면 제한적으로 공개했던 어린이 집 관련 정보들이 보육교사 수, 특별활동비, 급식현황, 위반 처분내용 등 학부모의 정확한 판단을 도울 수 있는 실질적인 정보들을 제공합니다.

기상청의 경우 현재 위성정보, 레이더정보, 해양관측정보 등을 민간에 제공하고 있습니다. 앞으로는 오랜기간 수집한 예보정보, 항공 자료정보, 초단기 예측정보 등을 추가로 제공한다고 합니다. 이러한 기상 정보를 재해/의료/에너지분야 정보와 연계하고, 농업/건설/레저/유통 등 다양한 산업과 융합하면 재해보험 컨설팅, 맞춤형 날씨 정보 등 다양한 먹거리를 창출할 수 있으며, 기상 컨설턴트 등 새로운 일자리를 만드는데 중추적인 발판을 마련하게 됩니다.

또한 교통의 경우 우리나라에서 교통혼잡으로 인하여 소모되는 비용이 2012년 기준으로 연간 30조원에 달합니다. 개인들이 스마트폰으로 교통정보를 활용하여 혼잡도로의 정보를 파악하여 운행한다면 연간 3조 6천억원의 혼잡비용을 감소시킨다고 합니다.

프로그램 개발이 쉽도록 오픈 API도 제공

공공데이터를 프로그래머와 기업들이 손 쉽게 활용해서 프로그램을 개발할 수 있도록 오픈 API도 함께 제공합니다. 2009년 당시 고교생이던 유주완씨가 개발한 “서울버스”가 오픈 API를 활용한 대표적인 예라 할 수 있습니다.

모든 국민이 이용할 수 있도록 공공데이터 개방의 창구는 “공공데이터 포털(data.go.kr)”로 일원화하였으며, 데이터뿐만 아니라 프로그램 개발자를 위한 서비스 개발 가이드와 활용 사례를 제공하고 회원 가입만 하면 정부가 공개한 모든 정보를 무료로 다운로드 받을 수 있습니다.

'빅데이터 > 빅데이터 이해' 카테고리의 다른 글

[1편] ‘자원’ : 활용할 수 있는 빅데이터 발견하기 (0)	2017.08.03
‘일각고래 프로젝트’ (2012년 미국 대선) (0)	2017.08.03
구글(Google) 의 “독감예측시스템” (0)	2017.08.03
빅데이터의 분류 (0)	2017.08.03
빅데이터 시대의 도래 (0)	2017.08.03

빅데이터의 분류

2017. 8. 3. 09:23

빅 데이터를 형태별로 분류를 해보면 정형 데이터(Structured Data), 반정형 데이터(Semi-structured Data), 비정형 데이터(Unstructured Data) 3가지로 구분할 수 있다.

정형 데이터(Structured Data)

정형 데이터(Structured Data)는 고정된 필드에 저장된 데이터를 말하며 관계형 데이터베이스(RDB, Related Database) 와 스프레드시트 등을 예로 들수 있다. 정형 데이터의 경우는 데이터베이스를 설계한 기술자에 의해 수집되는 정보의 형태가 정해지게 된다. 한정된 정보들 속에서 고객의 정보와 상품 분석, 인기 품목에 대한 정보를 분석할 수 있다.

반정형 데이터(Semi-Structured Data)

반정형 데이터(Semi-Structured Data)는 고정된 필드에 저장된 데이터는 아니지만 XML, HTML 텍스트등 메타데이터(Meta Data) 및 스키마(Schema)를 포함하는 데이터이다.

여기서 반정형 데이터에서 중요한 위치를 차지하고 있는 HTML의 변화에 대해서 말하고자 한다. 인터넷의 확산으로 HTML 자료들이 방대해지고 있는 상황에서 정보 탐색을 위한 요구사항들이 점차 늘어나고 있다. 웹 문서를 보다 쉽게 탐색하고 정확하게 해석하여 의미있는 정보를 추출하기 위해서이다.

HTML5 이전의 웹 문서들은 표현을 위한 태그들은 있었으나 문서에 대한 의미을 담은 태그들은 존재하지 않았다. 이러한 문서는 사람이 읽기에는 적합하지만 자동으로 문서의 의미를 파악하고 분류 및 분석하기에는 힘든 구조이다.

HTML5의 경우 머리글, 바닥글, 탐색줄, 사이드바와 같은 문서의 의미를 위한 시멘틱 태그(Semantic Tag)들이 추가되었다. 이러한 태그들은 문서의 구조와 영역 그리고 범위를 명확히 함으로서 웹 페이지의 전체 또는 일 부분에 의미를 부여할 수 있게 되어 검색시 보다 정확한 정보를 추출할 수 있도록 도와준다.

비정형 데이터(Unstructured Data)

비정형 데이터(Unstructured Data)는 고정된 필드에 저장되어 있지 않은 데이터를 의미하며 페이스북과 트위터, 유튜브 영상, 이미지 파일, 음원파일, 워드 문서, PDF 문서등을 예로 들수 있다. 비정형 데이터의 경우는 페이스북, 트위터, 네이버, 다움등에서 생성되는 실시간 정보들을 통해서 더 많은 정보들을 수집하고 분석할 수 있다. 예를 들면 특정 지역의 날씨 정보, 유동 인구의 수, 이들의 판매 정보등을 수집할 수 있다. 형태가 정해지지 않는 정보속에서 분석 방향에 따라 다양한 정보를 수집할 수 있는 것이다.

빅 데이터의 85% 가량이 형태가 정해지지 않은 비정형 데이터이다. 소셜 네트워크 이용자 수의 증가로 비정형 데이터는 급속도로 확산되고 있는 추세이지만, 정형 데이터 분석을 위해서 이용되고 있는 많은 기술들이 비정형 데이터에서는 활용할 수 없다는 한계를 가지고 있다.

이러한 이유로 하둡 플랫폼을 이용하여 비정형 데이터를 수집 및 분석하여 내용을 쉽게 보여줄 수 있는 기술력 확보가 필요하다. 이를 통해 무의미하던 데이터에서 보석과 같은 값어치가 있는 정보를 추출하여 다른 경쟁 기업보다 경쟁력 우위를 확보하는 것이 무엇보다 중요다고 할수 있다.

빅데이터 분석기법

빅데이터 분석은 데이터 양이 방대하고 분석해야 할 비정형 데이터의 비중이 높아서 정확한 정보 추출을 위해서는 기술력 확보가 중요하다.

텍스트 마이닝(Text Mining)

텍스트 마이닝은 비/반정형 텍스트 데이터에서 자연어처리(Natural Language Processing) 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다.

텍스트 마이닝 기술을 통해 방대한 텍스트 뭉치에서 의미 있는 정보를 추출해내고, 다른 정보와의 연계성을 파악하며, 텍스트가 가진 카테고리를 찾아내는 등 단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다.

컴퓨터가 인간이 사용하는 언어(자연어)를 분석하고 그 안에 숨겨진 정보를 발굴해 내기 위해 대용량 언어자원과 통계적, 규칙적 알고리즘이 사용되고 있다. 주요 응용분야로 문서분류(Document Classification), 문서군집(Document Clustering), 정보추출(Information Extraction), 문서요약(Document Summarization) 등이 있다.

오피니언 마이닝(Opinion Mining)

텍스트 마이닝의 관련 분야로는 오피니언 마이닝, 혹은 평판 분석(Sentiment Analysis)이라고 불리는 기술이 있다. 오피니언 마이닝은 소셜미디어 등의 정형/비정형 텍스트의 긍정(Positive), 부정(Nagative), 중립(Neutral)의 선호도를 판별하는 기술이다.

오피니언 마이닝은 특별 서비스 및 상품에 대한 시장규모 예측, 소비자의 반응, 입소문 분석(Viral Analysis) 등에 활용되고 있다. 정확한 오피니언 마이닝을 위해서는 전문가에 의한 선호도를 나타내는 표현/단어 자원의 축적이 필요하다.

소셜 네트워크 분석(Social network Analytics)

소셜 네트워크 분석은 수학의 그래프 이론(Graph Theory)에 뿌리를 두고 있다. 소셜 네트워크 연결구조 및 연결강도 등을 바탕으로 사용자의 명성 및 영향력을 측정하여, 소셜 네트워크 상에서 입소문의 중심이나 허브(Hub) 역할을 하는 사용자를 찾는데 주로 활용된다.

이렇게 소셜 네트워크 상에서 영향력이 있는 사용자를 인플루언서(Influencer)라고 부르는데, 인플루언서의 모니터링 및 관리는 마케팅 관점에서 중요하다고 할 수 있다.

클러스터 분석(Cluster Analysis)

군집분석은 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집(Group)을 발굴하는데 사용된다. 예를 들어 트위터 상에서 주로 사진/카메라에 대해 이야기하는 사용자군이 있을 수 있고 자동차에 관심 있는 사용자군이 있을수 있다. 이러한 관심사나 취미에 따른 사용자군을 군집분석을 통해 분류할 수 있다.

빅데이터 처리 인프라 기술

빅데이터와 같은 엄청난 규모의 데이터를 분석하기 위해서는 먼저 인프라 기술이 갖추어져야 한다. 이러한 기술력 확보를 위해서 클라우데라(Cloudera), 야후(Yahoo), 아마존(Amazon), 구글(Google) 등의 기업들은 각자의 기술을 개발, 오픈소스화에 앞장서고 있다.

하둡(Hadoop)

더그 커팅과 마이크 카파렐라에 의해 개발된 하둡(Hadoop)은 방대한 양의 정형/비정형 데이터를 분산 처리하여 빠른 시간내에 결과를 제공하는 오픈소스 기반의 데이터 관리 기술로 분산시스템에서 대량의 자료를 처리하는 자유 자바 소프트웨어 프레임워크이다.

하둡의 뿌리는 구글과 맞닿아 있다. 이는 구글이 설립 초기부터 대규모 자료를 검색하고 분석하는데 사용한 분산 파일시스템(GFS, Google File System)과 분석 처리 시스템 MapReduce에 대한 논문을 접한 더그 커팅이 이를 참고하여 구현한 것이기 때문이다.

대표적인 하둡 솔루션 업체로는 클라우데라(Cloudera)와 호튼웍스(Hotonworks)가 있다. 클라우데라는 빅데이터와 클라우드 시장의 교육 및 기술지원을 제공하고 있고 호튼웍스는 하둡의 코어기술과 아키텍처 개선을 담당하고 있다.

구글의 빅쿼리(Big Query)

구글의 ‘빅쿼리’는 빅데이터를 클라우드 상에서 신속하게 분석해주는 서비스이다. 이용자가 구글 클라우드 스토리지에 분석하고자 하는 데이터를 업로드하면 웹 브라우저를 통해 해당 데이터가 분석된다. 따라서 기업은 별도 인프라를 구축하지 않고도 데이터를 분석할 수 있다.

‘빅쿼리’는 초당 수십억 단위 행(rows) 데이터를 다룰 수 있으며, 데이터 탐색 범위를 테라바이트 규모가지 확장할 수 있다. ‘빅쿼리’ 인프라를 사용해 기업들은 자체 서버와 솔루션을 구축하지 않고도 데이터를 저장하고 이를 분석하는 프로그램 역시 ‘빅쿼리’를 통해 개발해 서비스를 운영할 수 있다.

아마존의 다이나모(Dynamo)

2007년말 아마존은 차세대 가상 분산 저장공간(Virtual Distributed Storage) 시스템인 다이나모를 공개합니다. 일단 아마존 웹 서비스(AWS, Amazon Web Service)을 통해서 자신들이 가장 잘하는 전자상거래 분야를 장악한 아마존이 웹 기반의 인프라 시스템 기술에 도전하기 시작합니다.

다이나모는 새롭게 소개된 AWS의 NoSQL 서비스입니다. 키-밸류(Key-Value) 형태로 대용량의 데이터를 저장할 수 있으며 고속의 데이터 접근도 가능합니다. RDBMS(Relational Database Management System)와 동일한 테이블(Table) 개념을 가지고 있으며 테이블은 테이블명과 각각의 row로 구성됩니다.

다이나모가 RDBMS와 다른점은 인덱스(Index) 필드가 없다는 것입니다. 그 대신에 Range Query나 Sorting을 지원하기 위해서Range Key라는 추가적인 키를 가집니다. 내부적으로 SSD 디스크를 이용하기 때문에 높은 IO 성능을 보장할 수 있습니다.

'빅데이터 > 빅데이터 이해' 카테고리의 다른 글

[1편] ‘자원’ : 활용할 수 있는 빅데이터 발견하기 (0)	2017.08.03
‘일각고래 프로젝트’ (2012년 미국 대선) (0)	2017.08.03
구글(Google) 의 “독감예측시스템” (0)	2017.08.03
공공데이터 개방시대 (0)	2017.08.03
빅데이터 시대의 도래 (0)	2017.08.03

빅데이터 시대의 도래

2017. 8. 3. 09:22

스마트 폰은 우리의 삶의 많은 부분을 변화시켰다. 휴대폰 알람을 통해서 잠에서 깨어서 다음(Daum)과 네이버(Naver)에 접속하여 오늘의 뉴스를 확인하고 위젯으로 설정한 날씨 어플리케이션을 확인하여 우산이 필요한지를 확인한다. 직장에서는 틈틈히 스마트 폰을 이용하여 인터넷을 검색하며, 개인 금융 업무도 간편하게 처리한다. 요즘 세대는 잠들지 않는 대부분의 시간을 스마트폰을 이용하여 무언가에 열중하며, 휴대폰이 내 곁에 없으면 마음이 불안해진다.

현재 사람들에 의해서 생성되고 있는 데이터의 양이 이전에 만들어진 데이터의 양과 비교가 되지 않을 정도로 빠른 속도로 생성되어지고 있다.이러한 이유로는 애플(Apple)의 스티브 잡스(Steven Paul Jobs)에 의한 스마트폰의 확산, 페이스북(Facebook)의 마크 주크버그(Mark Elliot Zuckerberg)로 대변되는 소셜 네트워크 서비스(SNS, Social Network Service) 의 힘이 컸다고 말할 수 있으며, 이러한 빅 데이터를 저장할 수 있는 매체 가격의 하락등과 맞물려서 천문학적으로 증가하고 있다..

전 세계에 10억명의 회원수를 보유하고 있는 페이스북(Facebook)의 경우 하루에 1억건이 넘는 메시지가 게시되고 있으며, 페이스북을 통해서 각 개인의 직업, 취미, 관심분야와 같은 신변정보들을 어렵지 않게 찾을수 있으며, 이를 통해서 구매하고 싶은 상품이 무엇인지를 명확하게 분석하여 기업의 이윤 추구에 활용할 수 있다.

불확실성과 복잡성이 증가하는 비즈니스 환경에서 소셜 네트워크를 통한 개인과 집단의 변화를 수집하고 이를 정확하게 분석하여 경영에 활용하는 예측능력의 중요성이 부각되고 있다.

미래 시장의 변화에 대한 예측은 이윤을 창출하고 지속 성장을 원하는 기업에게는 피할수 없는 생존의 문제이다. 광범위한 영역에서 수집할 수 있는 빅데이터을 통해 기업은 개인의 행동 패턴을 정확하게 예측할 수 있으며, 이를 통해서 미래의 흐름을 파악할 수 있다.

빅 데이터에 대한 정확한 예측을 시스템으로 자동화할 수 있다면 기업은 이를 통해서 실시간으로 고객이 원하는 니즈(needs)를 예측하여 마케팅에 활용할 수 있으며, 회사 운영에 대한 전략을 구상하는데 필요한 정보로도 활용할 수 있다.

기업 생존과 발전을 위해서 빅 데이터를 수집하고 분석할 수 있는 기술력과 인력을 확보하는것이 무엇보다 중요한 시점이라 할수 있다.

빅데이터(Big Data)와 하둡(Hadoop)을 분석하게 된 이유중에 하나가 인터넷에 존재하는 부동산과 관련된 정보들을 하둡을 통해서 수집, 분석하여 다양한 내용을 관련인들에게 실시간으로 제공하는 시스템을 만들고 싶어서이다.

다양한 경로를 통해 수집된 비정형화된 데이터를 통해서 현장에 가지 않고도 개인 취향에 맞는 상세한 정보들을 실시간으로 제공 받을 수 있는 시스템이다.

현재 부동산 정보들을 제공하는 사이트들은 많이 있다. 이들 대부분이 정형화된 형태로 데이터베이스에 저장된 자료를 분석하여 한정된 내용들을 사용자들에게 제공하고 있다. 예를 들면 단지규모, 대지지분, 조망권, 소음, 건축년도, 지명도, 지하철, 학군등과 같은 정보들이다.

다움, 네이버, 소셜네트워크에서 수집된 비정형 데이터를 이용하면 “어느 부동산 업체가 수수료가 싼지?”, “혐오 시설이 근처에 있는지?”, “교통편이 편한지?”, “주변에 성 범죄자가 살고 있는지?”, “강력범죄가 많이 일어나는지?”, “사람들이 이 지역을 어떻게 생각하는지?” 등과 같은 개인 맞춤형 정보들을 제공할 수 있다.

하둡(Hadoop)은 정보의 바다에서 의미가 없었던 자료속에서 금맥을 발견하도록 도와주는 도우미와 같은 존재이며 더 나아가 미래을 예측할 수 있는 훌륭한 도구가 될 것이다. 이를 통해서 사람들은 다양한 관점에서 지극히 개인적인 질문이 가능하며, 이에 대한 해답을 실시간으로 제공받을 수 있는 발판이 마련된 것이다.

'빅데이터 > 빅데이터 이해' 카테고리의 다른 글

[1편] ‘자원’ : 활용할 수 있는 빅데이터 발견하기 (0)	2017.08.03
‘일각고래 프로젝트’ (2012년 미국 대선) (0)	2017.08.03
구글(Google) 의 “독감예측시스템” (0)	2017.08.03
공공데이터 개방시대 (0)	2017.08.03
빅데이터의 분류 (0)	2017.08.03

PREV 1 2 NEXT

류프리