인간은 매일 먹고 일하고 놀고 데이터를 생산한다. IBM에 따르면 인류가 하루에 생산하는 데이터의 양은 무려 250경 바이트에 이른다. DVD를 쌓는다면 달까지 왕복할 만큼의 데이터다. 이 데이터에는 우리가 전송하는 텍스트와 업로드하는 사진부터 산업용 센서 측정 데이터와 머신 간 통신 등 온갖 것이 포함된다.

이러한 이유로 “빅데이터”라는 말이 도처에서 사용되는 것이다. 사람들이 빅데이터라고 말할 때는 이 데이터의 많은 부분을 가져다가 이를 분석하고 유용한 무언가로 만드는 것을 의미한다.


Image Credit : GettyImagesBank


빅데이터란 정확히 무엇인가?
그러나 빅데이터의 의미는 그보다 훨씬 더 넓어서 다음과 같은 요소를 포괄한다.

- 많은 경우 여러 소스에서 방대한 양의 데이터를 수집
- 단순히 양만 많은 것이 아니라 그 종류도 다양하다. 많은 경우 동시에 여러 종류의 데이터, 시간이 경과하면서 바뀌는 데이터를 수집한다(처음부터 구체적인 형식으로 변형시키거나 일관적으로 만들 필요는 없는 데이터).
- 동일한 데이터 풀을 다양한 목적으로 지속적으로 분석할 수 있도록 이 데이터를 분석한다.
- 이 모든 작업을 신속하게, 때에 따라서는 실시간으로 수행한다.

초창기에는 이러한 네 가지 측면 중 세 가지를 나타내는 VVV라는 약어를 사용했다. 각 V는 볼륨(Volume, 방대한 양), 다양성(Variety, 다양한 종류의 데이터와 시간 경과에 따라 데이터가 바뀐다는 사실), 그리고 속도(Velocity)를 나타낸다.

빅데이터 vs. 데이터 웨어하우스
VVV라는 약어에서 빠진 부분은 분석을 위해 데이터가 영구적으로 변경될 필요는 없다는 중요한 개념이다. 이 비파괴적 분석은 곧 조직에서 동일한 데이터 풀을 다양한 용도로 분석하고, 서로 다른 목적으로 수집된 소스의 데이터를 분석할 수 있음을 의미한다.

반면 데이터 웨어하우스는 특정 목적을 위해 특정 데이터를 분석하도록 만들어졌으며 데이터는 구조를 갖고 오로지 그 목적에 맞는 특정 형식으로 변환됐다. 추출, 변형, 로드(ETL)로 불린 이 과정에서 원본 데이터는 기본적으로 파괴된다. 데이터 웨어하우징의 ETL 접근 방법에서의 분석은 특정 분석을 위한 특정 데이터로 제한됐다. 모든 데이터가 트랜잭션 시스템에 존재했던 당시에는 이러한 특성이 아무 문제도 없었지만, 지금과 같이 인터넷에 연결되고 도처에 데이터가 존재하는 세계에서는 그렇지 않다.

다만 빅데이터로 인해 데이터 웨어하우스가 쓸모 없어지는 것은 전혀 아니다. 빅데이터 시스템은 비구조적 데이터를 거의 처음 수집한 상태 그대로 다룰 수 있게 해주지만 이를 통해 얻는 쿼리 결과의 정밀함은 데이터 웨어하우스에 훨씬 미치지 못한다. 데이터 웨어하우스는 데이터를 깊게 파고들기 위한 용도로 고안됐다. 심층 분석을 위한 큐브 구축과 같은 작업이 가능하도록 모든 데이터를 일관적인 형식으로 변환하므로 그러한 작업을 정확히 수행할 수 있다. 데이터 웨어하우징 업체들은 오랜 시간 동안 비즈니스 환경에서 일반적인 쿼리에 답하기 위해 쿼리 엔진을 최적화했다.

빅데이터는 더 많은 소스의 훨씬 더 많은 데이터를 분석할 수 있게 해주지만 분해능은 더 낮다. 따라서 전통적인 데이터 웨어하우스와 새로운 스타일의 빅데이터는 당분간 공존하게 될 것이다.

빅데이터를 이끈 기술 혁신
빅데이터에 필요한 네 가지 측면(볼륨, 다양성, 비파괴적 사용, 속도)을 달성하기 위해서는 여러 가지 기술 혁신이 필요했다. 분산 파일 시스템(하둡), 이질적 데이터의 의미를 실시간으로 파악하기 위한 방법(처음에는 구글의 맵리듀스, 최근에는 아파치 스파크), 그리고 필요에 따른 데이터 접근과 이동을 위한 클라우드/인터넷 인프라 개발 등이 여기에 포함된다.

대략 10여년 전까지만 해도 비교적 작은 규모의 데이터 외에는 한 번에 조작이 불가능했다. (당연히 당시에는 데이터 웨어하우스의 용량만 해도 엄청나다고 생각했다. 이후 인터넷이 모든 곳에서 데이터를 생산하고 연결하면서 상황은 급변했다.) 데이터 저장소의 위치, 컴퓨팅 파워, 여러 소스의 이질적 데이터 형식을 처리할 수 있는 역량의 제한 때문이었다.

그러다가 2003년을 전후해서 구글의 연구원들이 맵리듀스를 개발했다. 이 프로그래밍 기법은 먼저 데이터를 일련의 키/값 쌍에 매핑한 다음 비슷한 키를 대상으로 계산을 수행, 이를 하나의 값으로 줄이고 수백 또는 수천 개의 저비용 시스템에서 각 데이터 덩어리를 병렬로 처리하는 방법으로 대량 데이터 집합 처리 작업을 간소화한다. 이 대규모 병렬 처리 덕분에 구글은 갈수록 커지는 데이터 볼륨에서 더욱 신속하게 검색 결과를 생성할 수 있다.


2003년을 전후해서 구글은 빅데이터를 가능하게 해준 두 가지 혁신을 개발했다. 그 중 하나는 하둡이다. 하둡은 다음과 같은 두 가지 주요 서비스로 구성된다.

- 하둡 분산 파일 시스템(HDFS)을 사용하는 안정적인 데이터 스토리지
-맵리듀스 기법을 사용한 고성능 병렬 데이터 처리

하둡은 보편적인 비공유 서버 모음에서 실행된다. 하둡 클러스터에서 자유롭게 서버를 추가하거나 제거할 수 있다. 시스템이 서버의 하드웨어 또는 시스템 문제를 감지하고 적절히 보상한다. 달리 말하자면 하둡은 자체 치유 기능이 있다. 따라서 시스템 변경이나 장애 시에도 데이터를 제공하고 대규모 고성능 처리 작업을 실행할 수 있다.

하둡은 데이터 저장과 병렬 처리를 위한 플랫폼을 제공하지만 진정한 가치는 애드온, 교차 통합 및 맞춤형 기술 구현에 있다. 이를 위해 하둡은 플랫폼에 기능과 새로운 역량을 추가하는 서브프로젝트를 제공한다.

- 하둡 커먼(Hadoop Common): 다른 하둡 서브프로젝트를 지원하는 공통적인 유틸리티.
- 척와(Chukwa): 대규모 분산 시스템 관리를 위한 데이터 컬렉션 시스템.
- HBase: 대용량 테이블을 위한 구조적 데이터 저장을 지원하는 확장형 분산 데이터베이스.
- HDFS: 애플리케이션 데이터에 대한 고성능 접근을 제공하는 분산 le 시스템
- 하이브(Hive): 데이터 요약 및 애드혹 쿼리를 제공하는 데이터 웨어하우스 인프라
- 맵리듀스: 계산 클러스터에서 대량 데이터 집합의 분산 처리를 위한 소프트웨어 프레임워크
- 피그(Pig): 병렬 계산을 위한 고수준 데이터-ow 언어 및 실행 프레임워크
- 주키퍼(ZooKeeper): 분산 애플리케이션을 위한 고성능 코디네이션 서비스

대부분의 하둡 플랫폼 구현에는 이러한 서브프로젝트가 최소한 몇 가지는 포함된다. 빅데이터를 이용하기 위해 필요한 경우가 많기 때문이다. 예를 들어 대부분의 조직은 주 분산 파일 시스템으로 HDFS를, 데이터베이스로 수십억 행의 데이터를 저장할 수 있는 HBase를 선택한다. 맵리듀스 또는 더 최근의 스파크는 하둡 플랫폼에 속도와 민첩성을 제공하므로 거의 필수다.


맵리듀스를 사용하면 개발자는 분산 프로세서 클러스터 또는 독립형 컴퓨터에서 방대한 양의 비구조적 데이터를 병렬로 처리하는 프로그램을 만들 수 있다. 맵리듀스 프레임워크는 다음의 두 가지 기능 영역으로 나뉜다.

- 맵 : 작업을 분산 클러스터의 여러 노드로 분할하는 기능
- 리듀스 : 작업을 수집 및 분석하고 결과를 하나의 값으로 도출하는 기능

맵리듀스의 주요 장점 중 하나는 내결함성이다. 이를 위해 맵리듀스는 클러스터의 각 노드를 모니터링한다. 각 노드는 주기적으로 완료된 작업과 상태 업데이트를 보고하도록 되어 있다. 정해진 간격보다 길게 노드에서 소식이 없을 경우 마스터 노드는 이를 기록하고 다른 노드로 작업을 재할당한다.

맵리듀스를 사용하는 오픈소스 프레임워크인 아파치 하둡은 그로부터 2년 뒤 개발됐다. 지금은 사용되지 않는 너치(Nutch) 검색 엔진을 인덱싱하기 위해 개발된 하둡은 이제 거의 모든 주요 산업에서 다양한 빅데이터 작업에 사용된다. 하둡의 분산 파일 시스템과 YARN(Yet Another Resource Negotiator) 덕분에 사용자는 수천 개의 기기에 걸쳐 분산된 방대한 데이터 집합을 마치 하나의 초대형 시스템에 있는 것처럼 취급할 수 있다.

2009년 버클리 캘리포니아 대학 연구진은 맵리듀스의 대안으로 아파치 스파크를 개발했다. 스파크는 메모리 내 스토리지를 사용해 병렬로 계산을 수행하므로 맵리듀스보다 최대 100배 더 빠르다. 스파크는 독립적 프레임워크로 작동하거나 하둡 내에서 작동할 수 있다.

하둡을 사용하더라도 데이터를 저장하고 접근하기 위한 수단은 필요하다. 일반적으로 이 용도로는 여러 시스템에 분산된 비구조적 또는 반구조적 데이터를 처리하는 데 특화된 몽고DB, 카우치DB 또는 카산드라와 같은 NoSQL 데이터베이스가 사용된다. 방대한 데이터 용량과 유형이 하나의 통합 형식으로 융합되고 하나의 데이터 저장소에 저장되는 데이터 웨어하우징과 달리 이러한 툴은 데이터의 기반 속성이나 위치를 바꾸지 않는다. 이메일은 그대로 이메일, 센서 데이터는 그대로 센서 데이터인 채 거의 모든 곳에 저장할 수 있다.

시스템 클러스터의 NoSQL 데이터베이스에 방대한 양의 데이터가 저장되어 있더라도 그 데이터로 무언가를 하지 않는 이상 별 쓸모가 없다. 빅데이터 분석의 용도가 바로 그것이다. 태블로(Tableau), 스플렁크(Splunk), 재스퍼(Jasper) BI와 같은 툴을 사용하면 이 데이터를 분석해서 패턴을 파악하고 의미를 추출하고 새로운 통찰력을 얻을 수 있다. 여기서부터 할 일은 필요한 사항이 무엇이냐에 따라 달라진다.  editor@itworld.co.kr

원문보기: 
http://www.itworld.co.kr/news/106362?page=0,1#csidxf9221760a6b36a29d81a16470e87d1d 



인간은 매일 먹고 일하고 놀고 데이터를 생산한다. IBM에 따르면 인류가 하루에 생산하는 데이터의 양은 무려 250경 바이트에 이른다. DVD를 쌓는다면 달까지 왕복할 만큼의 데이터다. 이 데이터에는 우리가 전송하는 텍스트와 업로드하는 사진부터 산업용 센서 측정 데이터와 머신 간 통신 등 온갖 것이 포함된다.

이러한 이유로 “빅데이터”라는 말이 도처에서 사용되는 것이다. 사람들이 빅데이터라고 말할 때는 이 데이터의 많은 부분을 가져다가 이를 분석하고 유용한 무언가로 만드는 것을 의미한다.

Image Credit : GettyImagesBank


빅데이터란 정확히 무엇인가?
그러나 빅데이터의 의미는 그보다 훨씬 더 넓어서 다음과 같은 요소를 포괄한다.

- 많은 경우 여러 소스에서 방대한 양의 데이터를 수집
- 단순히 양만 많은 것이 아니라 그 종류도 다양하다. 많은 경우 동시에 여러 종류의 데이터, 시간이 경과하면서 바뀌는 데이터를 수집한다(처음부터 구체적인 형식으로 변형시키거나 일관적으로 만들 필요는 없는 데이터).
- 동일한 데이터 풀을 다양한 목적으로 지속적으로 분석할 수 있도록 이 데이터를 분석한다.
- 이 모든 작업을 신속하게, 때에 따라서는 실시간으로 수행한다.

초창기에는 이러한 네 가지 측면 중 세 가지를 나타내는 VVV라는 약어를 사용했다. 각 V는 볼륨(Volume, 방대한 양), 다양성(Variety, 다양한 종류의 데이터와 시간 경과에 따라 데이터가 바뀐다는 사실), 그리고 속도(Velocity)를 나타낸다.

빅데이터 vs. 데이터 웨어하우스
VVV라는 약어에서 빠진 부분은 분석을 위해 데이터가 영구적으로 변경될 필요는 없다는 중요한 개념이다. 이 비파괴적 분석은 곧 조직에서 동일한 데이터 풀을 다양한 용도로 분석하고, 서로 다른 목적으로 수집된 소스의 데이터를 분석할 수 있음을 의미한다.

반면 데이터 웨어하우스는 특정 목적을 위해 특정 데이터를 분석하도록 만들어졌으며 데이터는 구조를 갖고 오로지 그 목적에 맞는 특정 형식으로 변환됐다. 추출, 변형, 로드(ETL)로 불린 이 과정에서 원본 데이터는 기본적으로 파괴된다. 데이터 웨어하우징의 ETL 접근 방법에서의 분석은 특정 분석을 위한 특정 데이터로 제한됐다. 모든 데이터가 트랜잭션 시스템에 존재했던 당시에는 이러한 특성이 아무 문제도 없었지만, 지금과 같이 인터넷에 연결되고 도처에 데이터가 존재하는 세계에서는 그렇지 않다.

다만 빅데이터로 인해 데이터 웨어하우스가 쓸모 없어지는 것은 전혀 아니다. 빅데이터 시스템은 비구조적 데이터를 거의 처음 수집한 상태 그대로 다룰 수 있게 해주지만 이를 통해 얻는 쿼리 결과의 정밀함은 데이터 웨어하우스에 훨씬 미치지 못한다. 데이터 웨어하우스는 데이터를 깊게 파고들기 위한 용도로 고안됐다. 심층 분석을 위한 큐브 구축과 같은 작업이 가능하도록 모든 데이터를 일관적인 형식으로 변환하므로 그러한 작업을 정확히 수행할 수 있다. 데이터 웨어하우징 업체들은 오랜 시간 동안 비즈니스 환경에서 일반적인 쿼리에 답하기 위해 쿼리 엔진을 최적화했다.

빅데이터는 더 많은 소스의 훨씬 더 많은 데이터를 분석할 수 있게 해주지만 분해능은 더 낮다. 따라서 전통적인 데이터 웨어하우스와 새로운 스타일의 빅데이터는 당분간 공존하게 될 것이다.

빅데이터를 이끈 기술 혁신
빅데이터에 필요한 네 가지 측면(볼륨, 다양성, 비파괴적 사용, 속도)을 달성하기 위해서는 여러 가지 기술 혁신이 필요했다. 분산 파일 시스템(하둡), 이질적 데이터의 의미를 실시간으로 파악하기 위한 방법(처음에는 구글의 맵리듀스, 최근에는 아파치 스파크), 그리고 필요에 따른 데이터 접근과 이동을 위한 클라우드/인터넷 인프라 개발 등이 여기에 포함된다.

대략 10여년 전까지만 해도 비교적 작은 규모의 데이터 외에는 한 번에 조작이 불가능했다. (당연히 당시에는 데이터 웨어하우스의 용량만 해도 엄청나다고 생각했다. 이후 인터넷이 모든 곳에서 데이터를 생산하고 연결하면서 상황은 급변했다.) 데이터 저장소의 위치, 컴퓨팅 파워, 여러 소스의 이질적 데이터 형식을 처리할 수 있는 역량의 제한 때문이었다.

그러다가 2003년을 전후해서 구글의 연구원들이 맵리듀스를 개발했다. 이 프로그래밍 기법은 먼저 데이터를 일련의 키/값 쌍에 매핑한 다음 비슷한 키를 대상으로 계산을 수행, 이를 하나의 값으로 줄이고 수백 또는 수천 개의 저비용 시스템에서 각 데이터 덩어리를 병렬로 처리하는 방법으로 대량 데이터 집합 처리 작업을 간소화한다. 이 대규모 병렬 처리 덕분에 구글은 갈수록 커지는 데이터 볼륨에서 더욱 신속하게 검색 결과를 생성할 수 있다.

원문보기: 
http://www.itworld.co.kr/news/106362#csidx25166a38ce20e2c866468a302d5b61a 



2003년을 전후해서 구글은 빅데이터를 가능하게 해준 두 가지 혁신을 개발했다. 그 중 하나는 하둡이다. 하둡은 다음과 같은 두 가지 주요 서비스로 구성된다.

- 하둡 분산 파일 시스템(HDFS)을 사용하는 안정적인 데이터 스토리지
-맵리듀스 기법을 사용한 고성능 병렬 데이터 처리

하둡은 보편적인 비공유 서버 모음에서 실행된다. 하둡 클러스터에서 자유롭게 서버를 추가하거나 제거할 수 있다. 시스템이 서버의 하드웨어 또는 시스템 문제를 감지하고 적절히 보상한다. 달리 말하자면 하둡은 자체 치유 기능이 있다. 따라서 시스템 변경이나 장애 시에도 데이터를 제공하고 대규모 고성능 처리 작업을 실행할 수 있다.

하둡은 데이터 저장과 병렬 처리를 위한 플랫폼을 제공하지만 진정한 가치는 애드온, 교차 통합 및 맞춤형 기술 구현에 있다. 이를 위해 하둡은 플랫폼에 기능과 새로운 역량을 추가하는 서브프로젝트를 제공한다.

- 하둡 커먼(Hadoop Common): 다른 하둡 서브프로젝트를 지원하는 공통적인 유틸리티.
- 척와(Chukwa): 대규모 분산 시스템 관리를 위한 데이터 컬렉션 시스템.
- HBase: 대용량 테이블을 위한 구조적 데이터 저장을 지원하는 확장형 분산 데이터베이스.
- HDFS: 애플리케이션 데이터에 대한 고성능 접근을 제공하는 분산 le 시스템
- 하이브(Hive): 데이터 요약 및 애드혹 쿼리를 제공하는 데이터 웨어하우스 인프라
- 맵리듀스: 계산 클러스터에서 대량 데이터 집합의 분산 처리를 위한 소프트웨어 프레임워크
- 피그(Pig): 병렬 계산을 위한 고수준 데이터-ow 언어 및 실행 프레임워크
- 주키퍼(ZooKeeper): 분산 애플리케이션을 위한 고성능 코디네이션 서비스

대부분의 하둡 플랫폼 구현에는 이러한 서브프로젝트가 최소한 몇 가지는 포함된다. 빅데이터를 이용하기 위해 필요한 경우가 많기 때문이다. 예를 들어 대부분의 조직은 주 분산 파일 시스템으로 HDFS를, 데이터베이스로 수십억 행의 데이터를 저장할 수 있는 HBase를 선택한다. 맵리듀스 또는 더 최근의 스파크는 하둡 플랫폼에 속도와 민첩성을 제공하므로 거의 필수다.


맵리듀스를 사용하면 개발자는 분산 프로세서 클러스터 또는 독립형 컴퓨터에서 방대한 양의 비구조적 데이터를 병렬로 처리하는 프로그램을 만들 수 있다. 맵리듀스 프레임워크는 다음의 두 가지 기능 영역으로 나뉜다.

- 맵 : 작업을 분산 클러스터의 여러 노드로 분할하는 기능
- 리듀스 : 작업을 수집 및 분석하고 결과를 하나의 값으로 도출하는 기능

맵리듀스의 주요 장점 중 하나는 내결함성이다. 이를 위해 맵리듀스는 클러스터의 각 노드를 모니터링한다. 각 노드는 주기적으로 완료된 작업과 상태 업데이트를 보고하도록 되어 있다. 정해진 간격보다 길게 노드에서 소식이 없을 경우 마스터 노드는 이를 기록하고 다른 노드로 작업을 재할당한다.

맵리듀스를 사용하는 오픈소스 프레임워크인 아파치 하둡은 그로부터 2년 뒤 개발됐다. 지금은 사용되지 않는 너치(Nutch) 검색 엔진을 인덱싱하기 위해 개발된 하둡은 이제 거의 모든 주요 산업에서 다양한 빅데이터 작업에 사용된다. 하둡의 분산 파일 시스템과 YARN(Yet Another Resource Negotiator) 덕분에 사용자는 수천 개의 기기에 걸쳐 분산된 방대한 데이터 집합을 마치 하나의 초대형 시스템에 있는 것처럼 취급할 수 있다.

2009년 버클리 캘리포니아 대학 연구진은 맵리듀스의 대안으로 아파치 스파크를 개발했다. 스파크는 메모리 내 스토리지를 사용해 병렬로 계산을 수행하므로 맵리듀스보다 최대 100배 더 빠르다. 스파크는 독립적 프레임워크로 작동하거나 하둡 내에서 작동할 수 있다.

하둡을 사용하더라도 데이터를 저장하고 접근하기 위한 수단은 필요하다. 일반적으로 이 용도로는 여러 시스템에 분산된 비구조적 또는 반구조적 데이터를 처리하는 데 특화된 몽고DB, 카우치DB 또는 카산드라와 같은 NoSQL 데이터베이스가 사용된다. 방대한 데이터 용량과 유형이 하나의 통합 형식으로 융합되고 하나의 데이터 저장소에 저장되는 데이터 웨어하우징과 달리 이러한 툴은 데이터의 기반 속성이나 위치를 바꾸지 않는다. 이메일은 그대로 이메일, 센서 데이터는 그대로 센서 데이터인 채 거의 모든 곳에 저장할 수 있다.

시스템 클러스터의 NoSQL 데이터베이스에 방대한 양의 데이터가 저장되어 있더라도 그 데이터로 무언가를 하지 않는 이상 별 쓸모가 없다. 빅데이터 분석의 용도가 바로 그것이다. 태블로(Tableau), 스플렁크(Splunk), 재스퍼(Jasper) BI와 같은 툴을 사용하면 이 데이터를 분석해서 패턴을 파악하고 의미를 추출하고 새로운 통찰력을 얻을 수 있다. 여기서부터 할 일은 필요한 사항이 무엇이냐에 따라 달라진다.  editor@itworld.co.kr

원문보기: 
http://www.itworld.co.kr/news/106362?page=0,1#csidx75036bedbf889b3a0a09ced5727f453 



다음의 소셜메트릭스(http://insight.some.co.kr는 국내 텍스트 마이닝 전문 업체인 다음이 자연어 처리기술과 텍스트마이닝 기술을 바탕으로 블로그와 트위터 문서를 분석해서 정보를 실시간으로 제공하는 서비스입니다소셜 메트릭스는 사용자가 입력한 키워드에 대해 소셜 미디어에서 노출된 빈도 추이와 관련 연관어 맵을 제공하고각 키워드에 대한 긍정과 부정과 같은 감성정보 및 날짜별로 가장 많이 확산된 트윗 메시지를 제공하고 있습니다소셜매트릭스 이용은 공짜입니다.
 
여기서는 소셜 메트릭스를 이용하는 방법에 대해서 간략하게 소개를 드리려고 합니다.
 
 
소셜매트릭스 홈페이지 접속
브라우저에서 http://insight.some.co.kr 를 입력하고 소셜매트릭스 홈페이지에 접속을 하면 다음과 같은 화면이 나타납니다.
 

 

소셜매트릭스 홈페이지 화면 ]

 
소셜매트릭스의 화면구성에 대해서 간략하게 살펴보면갈색 영역에서 상단에 표시된 (1)번 영역에 알고 싶은 검색어를 입력하면 됩니다여기서는 부동산으로 조회를 하도록 하겠습니다. (2)번 영역은 트위터와 블로그에서 현재 가장 관심 있는 검색어들의 순위가 표시됩니다.
 
 
소셜 검색 화면
소셜매트릭스 홈페이지에서 검색어를 입력한 후에 엔터를 치시면 소셜 검색’ 화면으로 전환이 됩니다. ‘소셜 검색’ 화면은 입력된 검색와 관련된 연관감성 키워드 순위와 주간 급등 키워드 순위를 표시합니다.

 

[ 소셜 검색 화면 ]

 
소셜 검색’ 화면에서 연관 키워드 순위’ 를 보시면 1위로 네이버가 나옵니다이 연관 키워드가 왜 나왔는지 알고 싶다면 네이버를 더블클릭하면 네이버’ 와 연관된 트위터와 블로그의 내용을 바로 확인할 수 있는 팝업 창이 나옵니다이를 통해서 연관 검색어에 대한 내용을 세세하게 확인할 수 있습니다.

 

연관 검색어 관련 트위터블로그 내용 확인 팝업창 ]

 
여기서는 부동산을 통해서 검색을 했는데, ‘동탄’, ‘판교’, ‘광교와 같은 세부 지역명으로 검색을 한 후에 트위터와 블로그의 게시 건수를 보면지역별 관심도에 대한 상대 비교도 간단하게 할 수 있습니다.
 
 
소셜 인사이트’ 화면
상단 메뉴에서 소셜 인사이트’ 를 클릭하시면 소셜 인사이트’ 화면으로 전환이 됩니다이 곳에서는 탐색어 맵’, ‘탐색어 추이’, ‘탐색어 여론’ 세가지의 메뉴가 있습니다.

 

 

 

소셜 인사이트 화면 ]

 

 
탐색어 맵
탐색어 맵’ 화면에서는 인물’, ‘단체’, ‘장소’, ‘상품’, ‘속성’, 브랜드’, ‘심리’ 등에 대한 자세한 상황들을 묘사해줍니다이를 통해서 부동산’ 과 관련해서 가장 관심지역을 표시해 줄수 있으며 사람들의 심리’ 상태들도 알려줍니다연관어와 관련된 자세한 블로그나 트위터 내용을 확인하고 싶으면 탐색어를 더블클릭하시면 내용을 확인할 수 있는 팝업창이 나타납니다이를 통해서 사람들이 부동산에 대해서 어떻게 생각하는지에 대해서 확인할 수 있습니다.
 
 
탐색어 추이 화면
탐색어 추이 화면에서는 탐색어 추이’ 와 /부정 추이에 대한 정보를 알려줍니다먼저 탐색어 추이는’ ‘부동산’ 과 관련된 검색 횟수 정보를 알려주며, ‘/부정 추이는 부동산에 대한 사람들의 심리 상태를 알려줍니다이를 통해서 부동산에 대한 전반적인 상황에 대해서 감을 잡을 수가 있습니다.
 

탐색어 추이 화면 ]
 

 
탐색어 여론 화면
마지막으로 탐색어 여론’ 화면입니다여기서는 사람들의 심리상태를 자세하게 확인할 수 있습니다현재 부동산에 대한 사람들의 심리상태가 긍정’ 인지, ‘부정’ 인지, ‘중립’ 인지를 확인할 수 있으며이러한 분석에 토대가 된 검색어들을 보여줍니다더 자세한 내용을 확인하시려면 탐색어를 더블클릭하시면 관련 검색어에 대한 트위터블로그 내용을 확인할 수 있습니다.

 

탐색어 여론 화면 ] 

현재는 여기서 제공하는 정보들을 토대로 당사자가 최종적으로 판단해야 합니다자동적으로 최종 선택을 해 주지는 않습니다하지만 이러한 정보들만으로도 이 사이트를 이용하지 않는 사람들 보다는 조금 더 정확한 분석을 할 수 있을 것이라고 생각합니다.



기존 IT 메가 벤더 진영

 

기존 IT 메가 벤더 진영은 전통적으로 정형 데이터(Structured Data)에 무게를 두는 관계형 데이터베이스의 강자들이다이들 업체들은 비정형 데이터의 중요성은 인정하면서도 하둡(Hadoop)이 기존의 데이터 처리 방식을 대체할 수 없기 때문에 기존 데이터웨어하우스(DW, Dataware House)와의 통합이 필요하다는 입장을 고수하고 있다대표적인 기업으로는 IBM, TERADATA, ORACLE등이 있다.

 

데이터의 저장과 처리에 대한 방대한 고객 접점을 이미 보유하고 있으며 보유하고 있던 데이터베이스 솔루션에 하둡등의 비정형 데이터 분석 솔루션을 통합해서 배포하고 있다오픈소스 빅데이터 전문 기업들과 기존 IT 메가 기업간의 대표 솔루션과 빅데이터 사업생존전략 추진현황에 대해서 비교해보도록 하겠다.



아이비엠(IBM)

공격적인 전문벤더 인수로 축적된 역량 바탕으로 시장 선두를 유지하고 있으며다양한 솔루션 라인업을 구성하고 있으며 솔루션 공급 뿐 아니라 빅데이터 기반 비즈니스 분석 및 최적화 컨설팅을 제공하고 있다.  대표 제품으로는 InfoSphere 제품군과 PureData  제품군, DB2가 있다.



테라데이터(TERADATA)

비정형 데이터 전문벤더인 Aster Data Systems를 인수하여 데이터분석 역량을 강화하였으며 정형비정형 데이터 통합 솔루션을 배포하고 있다대표적인 제품으로는 Teradata Aster제품군과 Teradata Database 제품군이 있다



오라클(ORACLE)

Dell, MS 등 대형 벤더와의 분야별 제휴를 통해 핵심 역량인 데이터베이스 분야에 집중하고 있으며 인메모리 데이터베이스 기술을 옵션으로 구현하여 빠르고 손쉽게 적용이 가능하다대표적인 제품으로는 Big Data Appliance와 Big Data Connectors, Database In-memory 옵션등이 있다.



빅데이터 시장을 선점하기 위해서 오픈소스 진영과 기존 IT 메가 벤더 진영간에 팽팽한 줄다리기가 진행되고 있습니다오픈소스 진영과 IT 메가 벤더 진영 중 미래에 IT 시장을 누가 선점할 지는 예측하기가 쉽지 않습니다다만 점점 더 많은 기업들이 오픈소스 소프트웨어를 선택하고 있는 추세입니다오픈소스 소프트웨어를 선택하는 가장 큰 이유로는 벤더 종속에서 벗어나기 위함이고 다음으로는 비용 때문입니다오픈소스는 클라우드 컴퓨팅 및 유연성을 유지하고자 하는 고객의 요구와 최고의 클라우드 자원을 가장 잘 확보할 수 있는 방법과 잘 맞아 떨어진다고 생각하기 때문입니다.

 

오픈소스 빅데이터 전문 벤더 진영

오픈소스 진영은 하둡(Hadoop)과 빅데이터(BigData) 분석 솔루션을 앞세워 새롭게 등장한 빅데이터 전문 벤더인 클라우데라(cloudera)와 호튼웍스(Hortonworks) 두 기업이다이들 기업들은 지금까지 데이터베이스의 한계로 분석하지 못했던 비정형 데이터에 접근이 가능한 하둡을 기반으로 비정형 데이터(Unstructured Data)의 수집분석처리에 주력하고 있다.

 

오픈소스로 제공되는 하둡(Hadoop)을 전문적으로 개발해 상용 솔루션으로 배포하는 대표적인 전문벤더로하둡(Hadoop) 기술 뿐 아니라 컨설팅교육대응 프로그램을 구성해 제공하고 있다.



클라우데라(cloudera)

클라우데라는 페이스북(Facebook), 구글(Google), 오라클(Oracle), 야후(Yahoo)등의 빅데이터 전문가가 설립을 하였으며 2009년부터 지금까지 총 1 4,100만 달러를 투자 받으며 가능성을 인정받고 있다빅데이터와 클라우드 시장의 교육 및 기술 지원을 제공하고 있다대표적인 하둡 상용버전으로는 CDH Cloudera Manager가 있다.



호튼웍스(Hortonworks)

야후(Yahoo)의 하둡(Hadoop) 인프라 개발 조직이 2011년 분사하여 설립한 업체이며 2011년부터 지금까지 총 4,800만 달러를 투자 받으며 가능성을 인정받고 있다하둡의 핵심 기술과 설계 방식의 개선을 주로 담당하고 있다대표적인 하둡 상용버전으로는HDP(Hortonworks Data Platform)이 있다.



빅데이터는 대용량의 데이터를 활용분석하여 가치 있는 정보를 추출하고 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 정보화 기술을 의미합니다그 외에도 기술적규모적방법적인 빅데이터의 정의를 살펴보면 다음과 같습니다.

 

(기술적 정의다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고데이터의 초고속 수집발굴분석을 지원하도록 고안된 차세대 기술 및 아키텍처. (IDC)

 

(규모적 정의일반적인 데이터베이스 소프트웨어가 저장관리분석할 수 있는 범위를 초과하는 규모의 데이터. (매틴지)

 

(방법적 정의빅데이터는 당초 수십~수천 테라바이트에 달하는 거대한 데이터 집합 자체만을 지칭하였으나점차 관련 도구플랫폼분석기법까지 포괄하는 용어로 변화. (삼성경제연구소)

 

 

빅데이터의 특징(6V)

빅데이터는 크기(Volume), 속도(Velocity), 다양성(Veriety) 3V의 특징을 가지고 있으며최근에는 여기에 진실성(Veracity), 시각화(Visualization), 가치(Value)라는 키워드를 추가하여 6V의 특징을 가지고 있다고 합니다.

 

①크기(Volume)는 물리적인 크기뿐만 아니라 개념적인 범위까지 대규모인 데이터를 의미하는것으로 과거의 데이터 크기에 비하여 상대적으로 처리가 어려울 정도의 양을 의미합니다.

 

②속도(Volocity)는 데이터가 생성되는 속도 및 데이터를 처리하는 속도를 의미합니다.

 

③다양성(Variety)은 과거의 정형화된 데이터에 비하여 비정형화된 데이터까지 포함한 데이터의 형식 및 데이터를 수집하는 공간이 내부뿐만 아니라 외부의 데이터까지를 의미합니다.

 

④진실성(Veracity)이란 빅데이터 분석을 통해 얻은 통찰력은 이러한 통찰력이 목적으로 하는 비즈니스 의사 결정이나 활동의 배경을 고려하여 이용됨으로써 신뢰가 제고됨을 의미합니다.

 

⑤시각화(Visualization)는 사용자 친화적인 시각적 기능을 통해 빅데이터의 모든 잠재력이 활용될 수 있어야 함을 의미합니다그리고 이러한 특징을 바탕으로 도출된 결과를 ⑥가치(Value)라고 합니다.

 

 

빅데이터의 출현 배경

기존 소셜네트워크 서비스(SNS, Social Network Service)로 대표되는 소셜 미디어의 성장과 최근 스마트 폰으로 대변되는 모바일 장치의 확산이 결합되어 일상 속에서 다양한 종류와 대규모 데이터가 급속히 생성유통저장되고 있습니다.

 

또한 RFID와 같이 정보를 감지하는 센서 장비의 이용 확대와 이러한 정보를 수집하는 클라우드 컴퓨팅(Cloud Computing) 기술의 확산은 물류의 이동 및 재고의 변화뿐만이 아닌 개별 소비자들의 개인정보 및 소비형태와 같은 모든 일상에 대한 디지털 기록을 가능케하고 있습니다.

 

기업 및 사회는 이러한 수집된 데이터를 기반으로 예측 분석을 하기 위하여다양한 종류의 대규모 데이터 처리분석및 활용 기술을 필요로 하고 있습니다대량의 다양한 데이터 생산 기술의 진보와 이에 필요한 데이터 저장 관리 분석 기술의 발전 속에서 빅데이터가 출현하게 됩니다



빅데이터의 활용하여 새로운 경제성장을 가져올 것이라는 기대와 달리개인정보의 유출 및 오·남용으로 인한 프라이버시(Privacy)의 침해라는 문제를 낳고 있습니다. 2011년 제정된 개인정보 보호법을 중심으로 개인정보에 대해서 검토하고자 합니다.

 

개인정보보호의 필요성

클라우드(Cloud)기반의 모바일서비스나 스마트서비스는 개인에게 사용할 수 있는 일정량의 디스크 공간을 제공하고 있습니다국가정보원에서는 클라우드서비스 이용 금지령을 내렸는데다양한 정보들이 침해사고로 유출될 경우 국가적 위기를 초래할 수 있다는 우려때문입니다.

 

지난 2010 2~3월에 중국 해커로부터 불법 유출된 개인정보의 누적건수가 6,500만건이며, 2011년에는 네이트사이트 3,500만건넥슨사(메이플 스토리사이트 약 1,300만건에 회원정보가 불법유출된 사고가 발생한 바 있습니다하지만 정보주체의 침해사고에 대해 인지가 낮은 실정이며이에 대한 보호규정 및 보호대책은 매우 부족한 실정입니다.

 

 

유럽의 합법적 근거 없이 획득된 정보’ 삭제 요청

유럽이 인터넷 이용자의 개인정보보호를 위한 데이터 보호법을 개정하여이용자가 합법적 근거 없이 획득된 정보를 삭제해 달라고 요청할 경우 서비스업체가 해당 개인정보를 완전히 삭제하는 규정을 마련하였지만아직 정보주체의 자기정보결정권과 잊혀질 권리(Do not track)를 보장하기에는 한계가 있습니다.

 

 

개인정보 보호법’ 제정 (2011 3)

우리나라도 국민의 개인정보를 보호하기 위하여 공공기관의 개인정보보호에 관한 법률’ (1984), ‘정보통신망 이용촉진 및 정보보호에 관한 법률’ (1999) 등의 제개정으로 개인정보 침해사고를 사전에 예방하고 근본적인 제도적 개선을 가져오고자 노력하였습니다.

 

개인정보의 노출과 유출로 인한 침해사고로부터 국민의 권리와 이익을 보호하기 위한 개인정보보호정책을 추진하여 왔습니다특히 개인정보의 침해사고로부터 정보주체를 보호하기 위하여 분야별 개별법에 의해 법적 의무규정을 개인정보 보호법을 통해 보편적을 규정할 수 있게 되었으며, 2011 3 29일 공포되었습니다.

 

이를 통해서 개인정보 보호법의 제정은 포털금융기관병원 등 72개 업종의 약 350만개 사업자로 확대하여 규제하게 되었으며공공기관의 경우 국회법원헌법재판소중앙선거관리위원회 등 헌법기관중앙부처지방자치단체공사공단학교 등 약 2 8천여 공공기관사업자 협회 및 동창회 등 비영리단체까지 개인정보보호에 관한 의무 대상이 되었다.

 

 

‘개인정보 보호법’ 의 문제점

우리나라 개인정보 보호의 접근 방법은 빅데이터 특성과 분석력으로 인하여 현실적인 효과성에 한계가 있습니다빅데이터는 분석 이전에 개인 데이터를 통해 어떠한 결과를 도출될 것인지 사용자에게 적절히 고지하기가 힘들고 사용자는 자신의 데이터가 빅데이터 분석에서 어떻게 사용되는지 이해하고 동의하기가 힘듭니다.

 

데이터의 결합과 빅데이터의 분석 능력으로 인하여 개인데이터와 비개인 데이터 식별이 어렵기 때문에 개인데이터 활용을 위한 새로운 접근방법이 필요합니다현재의 접근방법으로 개인의 동의를 구하는 것은 더 이상 실용적이거나 효율적이지 못합니다데이터 주체가 고지된 프라이버시 정책을 숙지하고 데이터 사용에 동의하는 것은 현실적으로 불가능하기 때문입니다.

 

 개인정보 범위의 모호성

개인정보보호법상의 개인정보는 개념이 모호하고그 범위 설정이 쉽지 않다는 문제점이 있습니다개인정보보호법상의 개인정보에 해당하려면 살아 있는 개인에 관한 정보이어야 하며식별성 있는 정보여야 합니다더 나아가서 다른 정보와 결합하여 식별성을 띠는 정보도 개인정보에 포함시키고 있습니다.

 

현재 서울중앙지방법원은 개인정보의 개념에 대해서 구하기 쉬운지 어려운지와 상관없이 해당정보와 다른 정보가 특별한 어려움없이 결합하여 특정 개인을 알아볼 수 있게 되는 것” 이라고 정의하고 있습니다.

 

또한 빅데이터 등 신규 IT서비스에 대한 개인정보보호를 위한 제도적 장치 마련이 필요합니다재산신체사회적 정보의료정보 등 다양한 개인정보의 연결성과 식별성의 상관관계 분석을 통해 현대 사회의 문제점을 보다 정확하게 예측하고 그 개선책을 내 놓아야 합니다.

 

 다른 개인정보보호법과의 관계 정립의 문제

개인정보보호법 외에 정보통신망 이용촉진 및 정보보호에 관한 법률’, ‘신용정보의 이용 및 보호에 관한 법률이 있습니다이들의 관계에 대해서 개인정보보호법 제6조는 개인정보 보호에 관하여는 정보통신망 이용촉진 및 정보보호에 관한 법률’, ‘신용정보의 이용 및 보호에 관한 법률’ 등 다른 법률에 특별한 규정이 있는 경우를 제외하고는 이 법에서 정하는 바에 따른다라고 규정되어 있습니다.

 

즉 개인정보보호법과 정보통신망법신용정보법 사이에 모순점이 있는 경우 정보통신망법신용정보법이 우선 적용된다는 것입니다정보통신망법에 의하여 규율되고 있으면 개인정보보호법의 적용은 배제된다는 것인데여기서 많은 문제점들이 발생할 수 있습니다.

 

 

개인정보 보호법’ 의 개선방향

 

 개인정보 보호범위의 구체적 명시

개인정보보호법으로 보호해야 할 개인정보의 개념과 범위에 관하여 보다 명확하게 규정할 필요가 있습니다더불어 합리적이고 상식에 맞게끔 범위를 정할 필요도 있습니다이러기 위해서는 애매한 법조문보다는 명확한 법조문누구나 이해할 수 있고 예측할 수 있는 법표현이 규정되어 있어야 합니다.

 

 개인정보 보호정책의 활성화 및 다각적 모색방안 촉구

인터넷상 회원가입 대체수단고유식별번호 등 주요 개인정보 암호화및 개인정보 영향평가도를 전면 시행해야 하며공공기관과 하루 평균1만명 이상의 방문자수를 보유한 인터넷 홈페이지 운영사업자는 인터넷 홈페이지를 통해 회원 가입시 아이핀(I-PIN)’ 등 주민번호를 사용하지 않고 회원으로 가입할 수 있는 방법을 제공해야 합니다.

 

개인정보보호법에는 개인정보처리 사업자가 주민등록번호여권번호운전면허번호외국인 등록번호등 고유식별정보와 비밀번호바이오정보를 저장 시 암호화 적용이 의무화 되고 있습니다개인정보를 정보통신망을 통해 송수신하거나 보조저장매체등을 통해 전달하는 경우비밀번호와 바이오 정보는 암호화 저장이 필수사항입니다특히 비밀번호의 경우에는 복호화 되지 않도록 일방향 암호화 방식으로 저장해야 합니다.

 

 

개인정보권의 구제절차

개인정보피해를 구제하는 곳에는 개인정보 침해 신고센터와 개인정보분쟁 조정위원회가 있습니다개인정보 챔해센터 구제절차는 다음과 같습니다.

 

 사건(상담접수 및 통보

전화상담웹사이트이메일우편팩스등으로 사건을 접수하며당사자에게 접수 통보를 합니다.

 

 사실조사

모니터링당사자로부터 의견청취를 하며필요한 경우에는 자료제출 요구 및 현장조사등을 통하여 사실을 조사합니다.

 

 시정권고 소관부처 행정처분

미흡한 개인정보 보호조치에 대한 시정권고를 합니다다만시정권고가 받아들여지지 않거나 동일 침해가 반복되는 경우 등이라 판단되는 경우에는 소관부처로 이관합니다소관부처(행정안전부)는 법위반 경중에 따라 과태료등 처분을 내립니다.



인터넷 공간에 남겨진 내 흔적들

직장인 김모(27)양은 맞선 자리에서 상대방이 자신이 좋아하는 책음식취미종교최근에 본 영화까지 알고 있는 사실에 놀라움을 금치 못했습니다페이스북(Facebook)과 트위터(Twitter) 등 소셜네트워크서비스(SNS, Social Network Service)가 대중화되면서 개인의 일상 생활 하나 하나가 기록되는 디지털 풋프린팅’ 시대의 빛과 그림자입니다.

 

나보다 더 나를 아는 사람들

스마트폰 확산은 디지털 풋프린팅을 급속히 확산시키고 있습니다언제 어디서나 소셜네트워크서비스(SNS), 블로그(Blog), 카페(Cafe) 등 사이버 공간에 글과 사진을 남기면서 개인의 일상사는 그대로 기록되고 있습니다페이스북 등에는 개인이 직접 밝힌 출신학교와 전현직 직장 정보들을 파악할 수 있습니다인맥 정보도 기본으로 알수 있습니다이용자가 자신의 기본 정보를 공개하지 않거나 비공개로 설정하지 않는 이상 소셜네트워크서비스(SNS)는 물론 카페블로그에 남긴 글도 포털의 검색 대상 중에 하나입니다.

 

자신의 정보 공개를 꺼리는 이용자들도 예외는 아닙니다데이터 분석 전문가는 인터넷 이용자라면 누구나 의도치 않게 공개글을 남길 수 있습니다아이디메일 등 단서만 포착된다면 이곳 저곳 비공개 사이트에 감춰진 그 사람의 관심사성격취미정치적 성향 등을 손 쉽게 추적할 수 있습니다.” 고 말했습니다.

 

과거에는 구글(Google), 마이크로소프트(MS, MicroSoft)등 독점적 IT 기업들의 빅브라더(Big Brother)’가 우려되었다면 지금은 누구든지 빅브라더가 될 수 있습니다인터넷에서 신상털기와 사이버 스토커등 부작용은 이미 속출한 지 오래이며과거 해커들에게 돈되는 정보가 주로 주민번호전화번호주소이메일아이디 등이었다면 소셜네트워크서비스(SNS) 확대로 그 사람의 인맥성격취향 등 돈 되는 정보가 더욱 구체화 되었습니다블 특정 다수를 겨냥한 스팸피싱이 아닌 특정 개인을 겨냥한 이른바 개인 맞춤형 타깃 공격의 등장은 더 이상 소설속 얘기가 아닙니다.

 

미국 국가안보국(NSA)의 비밀 정보 수집 프로그램 프리즘(PRISM)’

프리즘(PRISM)은 미국 국가안보국에서 사용하는 비밀 개인정보 수집 시스템을 말합니다이를 통해서 세계 일반인 통화 기록은 물론 인터넷 사용 정보 등 개인 정보를 무작위로 수집저장분석해 왔습니다정보 수집이 가능했던 것은 인터넷 데이터망이 대개 미국을 경위하고 있었기 때문입니다과거 도청 기술과 달리 실시간으로 정보를 분석하는 것이 아니라 한달에 5억건에 달하는 이메일전화기록단문메시지서비스(SMS)를 수집저장해 두고 분석하였다고 합니다.

 

프르즘은 마이크로소프트(MicroSoft), 구글(Google), 페이스북(Facebook), 유투브(Youtube), 애플(Apple) 등 세계적인 IT 회사의 중앙서버에 접속해 개인 사용자의 이메일채팅인터넷 검색 내용영화오디오사진 등 모든 정보를 수집하였습니다.

 

프리즘 시스템을 통해 한 가지 분명해진 것은 빅데이터를 이용하면 우리의 미래를 대단히 훌륭하게 예측할 수 있다는 것입니다빅데이터를 확보하고 있는 조직은 개인의 사생활에 대해서 우리가 상상하는 것 이상으로 우리를 파악할 수 있게 됩니다이런 점에서 빅데이터는 인류에게 큰 기회인 동시에 재앙이 될 수 있습니다.

 

카카오톡 사례

카카오톡으로 밝혀진 살인사건으로 이란 제목으로 신문의 사회면에 보도된 적이 있는 이야기가 있습니다. 50대 여성 살해사건에서 가해자인 남편의 내연녀가 이 사건에 가담했는지 여부를 밝히기 위해서 카카오톡이 주요 증거로 제시된 것입니다.

 

사용자들끼리 대화를 주고받는 것은 사용자 디바이스에 저장 되면서 송수신되는 구조가 아닙니다카카오 서버에 저장되며서버에 접근할 권한을 가진 당사자들에게만 해당 메시지를 보여주게 됩니다이번 사건으로 인해 카카오톡이 빅브라더가 되려고 한다는 오해가 발생하기도 했으나대화 보관기간을 기존 3개월에서 1개월로 줄이는 것으로 일단락되었습니다.

 

페이스북 사례

페이스북이 마우스 커서의 움직임까지 추적하는 새로운 데이터 수집 기술을 적용했습니다보다 효율적인 광고 상품을 만들려는 포석으로 판단됩니다수집하는 데이터 종류가 지나치게 세밀하고 광범위해 일부에서는 스토킹’ 수준이라는 우려가 나오고 있습니다.

 

이 프로그램을 활용하면 페이스북은 사용자의 마우스 커서가 사이트에서 어디 주변을 주로 움직였는지 경로를 수집할 수 있습니다커서 움직임은 물론 아무 클릭을 하지 않았더라도 어떤 콘텐츠에 오래 시선이 머물렀는지도 파악을 할 수 있습니다.

 

이 변화는 그동안 좋아요를 누른 콘텐츠 종류나 방문한 페이지 목록 정도였던 기존 수집 범위보다 훨씬 세밀하고 광범위해졌다는게 특징입니다페이스북이 초기에 수집한 데이터는 사용자의 거주지나 졸업한 학교 등 주로 인구 통계학 분야에 치우쳤습니다이후 페이스북은 친구 목록과 좋아요’ 통계등 행동심리 데이터를 집중적으로 모으기 시작했습니다타깃 광고와 보다 밀접한 데이터는 행동심리 분야에서 나오기 때문입니다.

 

페이스북의 데이터 수집 확대는 온라인 마케팅 기업 셔터스톡을 벤치마킹했다고 알려졌습니다셔터스톡은 사용자가 사이트 내에서 하는 모든 행동 데이터를 기록하고 수집할 수 있습니다오픈소스 기반의 하둡 시스템을 사용하며사용자가 구매 직전 마우스 커서를 올려놓는 위치등을 자세하게 파악할 수 있습니다페이스북 역시 하둡 시스템을 사용하는 주요기업 중에 하나입니다타임은 페이스북의 새 조치와 관련 이보다 더 오싹할 순 없다” 며 이는 페이스북 활동에 부담감을 줘 10대뿐 아니라 전 연령대의 이탈 현상을 불러올 수도 있다고 지적했습니다.

 

구글 사례

구글이 서비스 이용자에게서 수집한 개인정보를 통합 관리하고 있습니다이메일동영상소셜네트워크시스템(SNS), 안드로이드(Android), 스마트폰(SmartPhone) 등 자사의 60개 서비스의 사용자 정보를 하나로 통합 관리하여 사용자에게 개인 맞춤형 서비스를 제공하여 편의를 높이겠다는 입장입니다.

 

문제는 개인 정보가 집약될수록 정확성과 민감도가 높아져 사생활 침해 가능성이 올라간다는 점입니다최근 검색한 목록이나 방문처 정보 등이 취합되면 취미나 관심사는 물론 건강 상태나 정치 성향재정 상태등도 노출될 수 있습니다이럴 경우 구글 사용자들은 민감한 개인정보의 활용을 오로지 구글의 선의에 맡기게 되는 셈입니다.

 

잊혀질 권리” 화두로

특정 개인들의 사이버 발자취를 통해 새롭게 만들어진 개인정보는 그 만감성에도 불구하고 구제의 사각지대입니다현 정보보호 법규는 주민번호위치정보등 신상정보만 보호하도록 규정되어 있습니다방송통신위원회 개인정보보호 법제정비 연구포럼’ 에서도 잊혀질 권리가 화두로 제시되었습니다이미 유럽에서는 잊혀질 권리에 대한 법제화가 활발합니다인터넷 이용자가 개인정보에 대한 삭제를 요구할 때 표현의 자유를 침해하지 않는 한 즉시 삭제해야 한다는 것이 골자입니다.

 

개인정보에 대한 인식을 새롭게

개인정보 보호에 있어서는 우리나라가 선진국보다 엄격합니다일본에서는 이름이나 주소와 달리 익명의 행동’ 정보는 원칙적으로 개인정보보호법 대상이 아닙니다미국은 더 자유롭습니다기본적으로 고객이 보호를 요청하지 않는 정보는 법으로 보호하지 않고 있습니다.

 

우리나라는 기본적으로 개인이 허락하지 않는 한특별한 경우 (공공 이익신변 위험 등)를 제외하고는 개인 정보 사용을 허락하지 않고 있습니다하지만 높은 수준의 개인정보 규제는 빅데이터 산업 발전에는 큰 장애물이기도 합니다미래창조과학부와 방송통신위원회는 개인정보 관련 규제를 대폭 완화하기로 했습니다사물정보(버스 위치 정보 등)에 대한 이용에는 허가나 신고를 면제하고 개인정보에 대해서도 공유할 수 있는 기준안을 마련하기 위한 작업에 착수했습니다.

 

개인정보 공유 기준을 마련하는 것도 쉽지 않은 문제입니다법적 제도적 어려움도 있지만 기술적인 문제점도 있습니다개별 자료로는 개인 식별이 안되어도 다양한 자료를 결합하면 개인이 누군지 판별이 될 수도 있습니다소득학력병력 등의 민감한 정보에 대해서는 프라이버시가 침해될 경우 사회적 저항을 불러 일으킬 수 있습니다사실 완벽한 프라이버시를 보장하는 개인정보 공유는 불가능하다고 생각하는 것일 옳습니다아무리 기술적으로 완벽하게 개인 식별 정보를 없앤다고 해도 다른 정보와 결합하면 손 쉽게 개인 정보를 찾아낼 가능성이 있습니다결국 개인 정보 공유의 기준 설정은 프라이버시와 효율이라는 대립되는 두 가치에 대한 사회적 합의의 문제와 직결됩니다.



데이터 과학자(Data Scientist)란 데이터를 수집정리조사분석가시화할 수 있는 전문가를 말합니다구조화되지 않은 대규모 데이터 속에서 숨겨진 정보를 찾아내는 데이터 과학자(Data Scientist)는 스마트(Smart) 시대에 최고의 인재입니다빅데이터 시대에는 데이터를 관리하고 분석할 수 있는 인력의 중요성이 높아지면서 데이터 과학자(Data Scientist)에 대한 관심이 증가하고 있습니다글로벌 IT 업체도 데이터 과학자(Data Scientist) 확보에 심혈을 기울이며 인재 확보와 내부 역량 강화에 노력하고 있습니다.

 

 

기업들의 데이터 과학자 확보 기반 강화

이베이(eBay)의 경우 고객 데이터를 분석하고 의미있는 정보를 찾아내는 일을 맡은 직원의 수가 5,000명에 이르며 IBM은 사내에 200명 이상의 수학자들이 분석학(analytics)’을 집중적으로 연구하고 있으며관련 특허를 취득하면서 미래 사업을 준비하고 있습니다.

 

EMC는 데이터 과학자(Data Scientist) 들의 집합인 애널리틱스’ 랩이라는 부서를 운영하면서빅 데이터에서 통찰력을 얻어낼 인재들을 확보하고 있습니다이들은 경제학통계학심리학 등을 전공한 박사급 인재들로 애널리틱스 랩을 운영하고 있으며, IT기술과 엔지니어링수학등의 능력 또한 보유하고 있습니다.

 

현재 데이터 과학자(Data Scientist) 의 역량을 갖춘 인재는 매우 부족한 실정입니다미국에서는 2018년까지 14~19만명의 전문가와150만명 정도의 데이터 관리자와 분석 인력이 부족할 것이라 예측하고 있습니다.

 

데이터 과학자(Data Scientist)의 수요가 향후 5년간 급증할 것으로 예상되며기업 내에서도 중요한 역할을 담당하는 21세기 유망직업 중 하나로 부각되고 있습니다데이터 처리와 분석 능력을 갖춘 인력은 IT 분야뿐만 아니라 대부분의 기업과 조직에서 필수적으로 확보해야 할 핵심 인력이 되었습니다.

 

 

데이터 과학자(Data Scientist) 의 역량

미국 공영방송인 NPR에서 최근 기업들은 머리는 수학/통계지식으로손은 컴퓨터 해커수준으로눈은 예술적 안목을 가진 사람(Data Scientist)을 찾는 데 애를 먹고 있다” 라고 한 보도에서 데이터 과학자가 가져야할 역량을 잘 묘사하고 있습니다.

 

대표적인 데이터 사이언티스트인 존 라우저 아마존 수석 엔지니어는 포브스와 인터뷰에서 데이터 과학자의 자질로 6가지를 선정하였다.

 

 데이터 과학자의 기본 자질은 ①수학과 ②공학능력

 데이터를 분석하는데 있어 필수인 가설을 세우거나 검증하는데 필요한 ③비판적 시각과 이를 잘 작성할 수 있는 

  ④글쓰기 능력

 다른 사람에게 잘 전달할 수 있는 ⑤대화 능력이 필요

 ⑥호기심과 개인의 행복도 중요한 소양

 

데이터 과학자는 대규모 데이터를 분석한 결과를 생생하고 차별화되게 시각화하여 이해하기 쉽게 전달하는 역량도 중요합니다시각화는 데이터 분석 결과를 전달하는 마지막 단계로서 데이터의 문맥화를 통한 해석 작업입니다정교한 모형과 시각화 도구를 활용하면 더 큰 비즈니스 가치와 통찰력을 제공할 수 있다.

 

 

데이터 과학자의 기술 역량

데이터 과학자가 지녀야 할 역량에 대해서 설명을 하자면 해킹 스킬(Hacking Skills) IT 기술을 의미하며 특히 대규모 데이터베이스 구축과 관리 기술하둡 및 클라우드 시스템 기술가시화 기술등이 여기에 해당합니다수학과 통계 기술(Math & Statistics Knowledge)은 데이터 분석에서 필요한 통계모델링 기술과 분석결과의 적절한 해석 등에 관한 백그라운드 지식을 의미합니다마지막으로 현업지식(Substantive Expertise)은 빅데이터가 발생하는 현업의 업무지식을 의미합니다이 세가지를 골고루 갖춘 사람을 데이터 과학자라고 합니다재미있는 사실은 IT 기술과 업무 지식만을 갖춘 전문가를 위험한 인물로 묘사하고 있는데 이는 수학 및 통계지식이 결여된 분석결과를 중요한 의사결정에 사용하면 위험하게 된다는 의미입니다데이터 과학자들이 주로 다루는 기술들은 다음과 같습니다.

 

① 하둡(Hadoop), 맵리듀스(MapReduce) 및 분산 파일 시스템 도구와 관련 있는 에코 시스템(Echo System)

② 파이썬(Python), 자바(Java), 피그(Pig), 하이브(Hive) 와 같은 프로그래밍 언어

③ 기계학습(Machine Learning)

④ SQL, NoSQL, NewSQL와 데이터베이스 도구 사용

⑤ 자연어 처리(Natural Language Processing)

⑥ 통계도구

 

 

데이터 과학자 양성

데이터 과학자 양성 프로그램의 교육과정도 데이터 과학자가 가져야 할 역량을 배양하는데 초점을 맞추어야 합니다 IT 기술과 수학 및 통계지식 그리고 현업 지식을 갖추기 위한 과목들로 구성되어야 합니다기존의 IT 분야 기술 관련 전체 과목보다는 데이터 관련 과목들 데이터베이스 데이터 마이닝 데이터베이스 프로그래밍등에 초점을 맞추어 학습하는 것이 중요합니다.

 

노스캐롤라이나주립대학교 석사과정은 빅데이터 분석가 양성을 목적으로 SAS 등의 재정 지원에 힘입어 2007년 출범했습니다.(http://analytics.ncsu.edu교육학공학생명과학수리과학경영학인문사회과학등 10개 단과대학의 교수진이 참여하고 있으며통계학컴퓨터과학재무론마케팅 등은 물론 보고서 작성(Technical Writing) 등의 과목으로 구성되어 있습니다특히 기업체의 데이터 분석 경험이 풍부한 실무진이 참여해 실무 현장의 데이터 분석을 잰행하는 산학 협력 프로그램이 특징적입니다.

 

서울대학교를 비롯한 각 대학교들은 기존 데이터마이닝 학과와 정보통계처리학과 교육 영역을 확장해 빅데이터를 다루고 있습니다충북대학교의 경우 비즈니스 데이터 융합학과’ 대학원을 개설하였으며 수강과목으로는 대용량데이터베이스기업프로세스통합적 분석빅데이터EDA, 대용량 멀티미디어 자료처리분산병렬처리빅데이터세미나비즈니스 데이터분석정보검색과 활용기업정보 시스템 구축비즈니스 인텔리전스, IT산업과 빅데이터 컴퓨팅, R-데이터마이닝, ABAP 프로그래밍클라우드시스템 등이 있습니다.



빅데이터(BigData) 처리 기술에는 인프라 기술(Infra Technology)과 데이터베이스 기술(Database Technology)로 나눌수가 있습니다인프라 기술은 오픈소스(Open Source) 진영과 기존의 IT 메가 벤더 진영으로 크게 분류할 수 있습니다.

 

데이터베이스 기술(Database Technology)은 기업에서 구축한 정형데이터를 관리하는 RDB(Relational Database)와 소셜네트워크서비스(SNS, Social Network System)에서 수집한 비 정형 데이터를 저장하는 NoSQL로 분류할 수 있으며최근에는 RDB NoSQL의 장점을 결합한 NewSQL 형태로 진화를 거듭하고 있습니다.  



 빅데이터 인프라 기술(Infra Technology)

빅데이터와 같은 엄청난 규모의 데이터를 분석하기 위해서는 먼저 인프라 기술이 갖추어져야 한다이러한 기술력 확보를 위해서 클라우데라(Cloudera), 야후(Yahoo), 아마존(Amazon), 구글(Google) 등의 기업들은 각자의 기술을 개발오픈소스화에 앞장서고 있습니다

 

 

하둡(Hadoop)

더그 커팅과 마이크 카파렐라에 의해 개발된 하둡(Hadoop)은 방대한 양의 정형/비정형 데이터를 분산 처리하여 빠른 시간내에 결과를 제공하는 오픈소스 기반의 데이터 관리 기술로 분산시스템에서 대량의 자료를 처리하는 자유 자바 소프트웨어 프레임워크입니다

 

하둡의 뿌리는 구글과 맞닿아 있습니다이는 구글이 설립 초기부터 대규모 자료를 검색하고 분석하는데 사용한 분산 파일시스템(GFS, Google File System)과 분석 처리 시스템 MapReduce에 대한 논문을 접한 더그 커팅이 이를 참고하여 구현한 것이기 때문입니다.

 

대표적인 하둡 솔루션 업체로는 클라우데라(Cloudera)와 호튼웍스(Hotonworks)가 있습니다클라우데라는 빅데이터와 클라우드 시장의 교육 및 기술지원을 제공하고 있고 호튼웍스는 하둡의 코어기술과 아키텍처 개선을 담당하고 있습니다.

 

 

구글의 빅쿼리(Big Query)

구글의 ‘빅쿼리는 빅데이터를 클라우드 상에서 신속하게 분석해주는 서비스입니다이용자가 구글 클라우드 스토리지에 분석하고자 하는 데이터를 업로드하면 웹 브라우저를 통해 해당 데이터가 분석됩니다따라서 기업은 별도 인프라를 구축하지 않고도 데이터를 분석할 수 있습니다.

 

‘빅쿼리’는 초당 수십억 단위 행(rows) 데이터를 다룰 수 있으며데이터 탐색 범위를 테라바이트 규모가지 확장할 수 있습니다. ‘빅쿼리’ 인프라를 사용해 기업들은 자체 서버와 솔루션을 구축하지 않고도 데이터를 저장하고 이를 분석하는 프로그램 역시 ‘빅쿼리를 통해 개발해 서비스를 운영할 수 있습니다.

 

 

아마존의 다이나모(Dynamo)

2007년말 아마존은 차세대 가상 분산 저장공간(Virtual Distributed Storage) 시스템인 다이나모를 공개합니다일단 아마존 웹 서비스(AWS, Amazon Web Service)을 통해서 자신들이 가장 잘하는 전자상거래 분야를 장악한 아마존이 웹 기반의 인프라 시스템 기술에 도전하기 시작합니다.

 

다이나모는 새롭게 소개된 AWS NoSQL 서비스입니다-밸류(Key-Value) 형태로 대용량의 데이터를 저장할 수 있으며 고속의 데이터 접근도 가능합니다. RDBMS(Relational Database Management System)와 동일한 테이블(Table) 개념을 가지고 있으며 테이블은 테이블명과 각각의 row로 구성됩니다.

 

다이나모가 RDBMS와 다른점은 인덱스(Index) 필드가 없다는 것입니다그 대신에 Range Query Sorting을 지원하기 위해서 Range Key라는 추가적인 키를 가집니다내부적으로 SSD 디스크를 이용하기 때문에 높은 IO 성능을 보장할 수 있습니다.

 

 

 

 데이터베이스 기술(Database Technology)

데이터베이스(DB, Database) 크게 SQL, NoSQL NewSQL로 구분할 수 있습니다처음에는 SQL의 편의성 때문에 기업들이 다른 DB 시스템을 사용하지 않았습니다시간이 흐르고 소셜네트워크 시스템(SNS, Social Network System) 의 등장으로 비 정형 데이터를 처리할 필요가 생기게 됩니다.

 

개발자들은 비정형 데이터를 더욱 쉽게 처리하고 저장하는 구조를 가진 NoSQL DB로 관심을 돌립니다. NoSQL은 틀이 정해져 있는 SQL에서 벗어나 분산 아키텍처의 확장성유연성과 비정형 데이터를 처리할 수 있는 기술로 자리잡기 시작합니다. NoSQL이 대부분 오픈 소스 프로젝트로 저렴한 비용으로 데이터를 처리할 수 있다는 점도 인기를 끌었습니다.

 

이런 NoSQL에도 단점이 있습니다스키마(Schema) 변경이 불가능해서 막상 데이터에 문제가 생겼을 때 감지하기가 쉽지 않으며대용량의 데이터를 처리하므로 실시간(Realtime) 처리보다는 배치(Batch) 처리에 적합합니다경영자들이 현황을 파악하기에 불편함을 초래합니다여기에 SQL과 같이 정해진 언어가 없는데다가 도큐먼트(Document) 스토리지(Storage) 기반으로 되어 있어 레코드를 개발해 본인들이 직접 넣어야 하는 식이어서 사용이 매우 불편합니다.

 

기존 SQL 기반의 RDB 장점을 포용하고확장성과 유연성 등 NoSQL의 장점을 가미한 NewSQL이 등장한 배경입니다.

 

 

NoSQL(Not-Only SQL)

전통적인 관계형 데이터베이스(RDBMS, Relational Database Management System)와 다르게 설계된 비 관계형 데이터베이스를 의미합니다대표적인 NoSQL 솔루션으로는 카산드라(Cassandra), Hbase, 몽고디비(MongoDB)등이 있습니다. NoSQL은 테이블 스키마(Table Schema)가 고정되어 있지 않고테이블간 조인(Join) 연산을 지원하지 않으며수평적 확장(Horizontal Scalability)이 용이한 장점이 있습니다.

 

 

NewSQL

415그룹의 Matt Aslett가 NewSQL이란 용어를 만들었고, NoSQL처럼 높은 확장성과 성능을 갖춘 RDB를 말합니다. SQL을 지원하고, SQL이 트랜잭션 데이터를 처리하기 위해 기업이 갖추어야 할 4가지 속성인 ACID(Atomicity, Consistency, Isolation, Durability) 등록 정보를 준수합니다여기에 NoSQL의 특징인 확장성과 유연성을 데이터베이스 관리 시스템(DBMS)에 더했습니다. SQL NoSQL 에서 장점만 뽑아서 결합한 것입니다참고로 SQL 1970년대 등장한 오래된 기술이고 NoSQL 2004년 구글이 발표한 맵리듀스(MapReduce) 관련 논문에서 나온 개념입니다

+ Recent posts