데이터마이닝(Data Mining)

2017. 8. 3. 09:34

최근 인터넷이 활성화되면서 데이터베이스 기반이 아닌 무작위 형태의 새로운 데이터가 생성되는 경우가 많아지는 추세입니다. 특히, 전자상거래 관련 대부분의 웹사이트에는 사용자들로부터 정형화되지 않았지만 상당히 잠재적 가치를 지니고 있는 텍스트 데이터들이 엄청난 규모로 생성되고 있습니다. 최근, 기업에서 유용하고 잠재적인 정보를 발견하기 위해 많이 사용하는 데이터마이닝 기술은 정형화된 형태의 데이터를 주대상으로 하고 있습니다.

그러나 대규모의 텍스트 데이터들은 구조적인 형태로 재구성하여 분석하기가 쉽지 않고, 대부분이 자연어로 쓰여진 문장 형태이기 때문에 함축된 정보를 추출하기가 쉽지 않습니다. 이러한 비 구조적인 텍스트 문서로부터 정보를 찾아 지식을 발견하는 것이 텍스트마이닝입니다. 그러나, 텍스트마이닝은 정형화된 데이터를 위한 일반 데이터마이닝에 비하여 정보 추출 능력이나 정확성 등 많이 떨어지는 경향이 있습니다.

데이터마이닝이 구조적인 데이터를 대상으로 유용하고 잠재적인 패턴을 끌어내는 것이라고 한다면, 텍스트마이닝은 자연어로 구성된 비구조적인 텍스트 안에서 패턴 또는 관계를 추출하여 지식을 발견하는 것으로 주로 텍스트의 자동 분류작업이나 새로운 지식을 생성하는 작업에 활용되고 있습니다.

오늘날 사용하는 대다수의 정보는 확실히 구조가 잡히지 않은 텍스트의 형태로 존재하기 때문에 자연어로 된 텍스트 문서의 자동화되고 지능적인 분석은 매우 중요합니다. 데이터 마이닝은 많은 기업들에서 데이터간의 관계, 패턴을 탐색하고 모형화하여 기업의 의사결정에 적용하기 위해 적용되며, 일반적인 데이터베이스와 같은 구조화된 자료에 초점이 맞춰져 있습니다. 따라서 데이터 마이닝 작업을 위해서는 적용될 데이터가 정확하고 표준화되어야 하며, 구조화가 잘 되어진 후에야 비로서 적용할 수 있을 것입니다.

데이터마이닝(Data Mining)

데이터마이닝은 데이터베이스의 데이터처럼 정형화된 데이터를 대상으로 처리하기 때문에 텍스트마이닝에 비하여 특성간의 연관성 파악이나 규칙생성 등 매우 다양하고 강력한 알고리즘들이 많이 개발되고 있습니다. 특히 분류작업의 경우 특성 벡터에 의존하는 텍스트 마이닝에 비하여 결정트리, 신경망, 연관규칙등 다양한 알고리즘이 지원될 수 있습니다.

데이터마이닝의 중요 사항

데이터마이닝의 가장 중요한 사항은 데이터를 수집하고 가공하는 이유가 무엇인지 이를 통해서 원하는 결과를 얻기 위하여 어떤 기법을 써야하는지에 대한 이해와 선택입니다. 데이터 분석은 지하에 묻힌 광물을 찾아낸다는 뜻을 가진 마이닝(mining)이란 용어로 부르게 된 것은 데이터에서 정보를 추출하는 과정이 탄광에서 석탄을 캐거나 대륙붕에서 원유를 채굴하는 작업처럼 숨겨진 가치를 찾아낸다는 특징을 가졌기 때문입니다.

데이터의 형태와 범위가 다양해지고 그 크기가 방대해지는 빅데이터의 출현으로 데이터 마이닝의 중요성은 한층 부각되고 있습니다. 특히 웹에서 엄청나게 빠른 속도로 생성되는 웹 페이지(web page) 콘텐츠와 웹 로그(web log), 소셜네트워크서비스의 텍스트 정보와 영상과 같은 비정형 데이터(unstructured data)를 분석하기 위한 다양한 방법론이 등장해 데이터 마이닝의 포괄 범위는 확장되고 있습니다.

통계학과 데이터마이닝은 비슷하다

데이터에서 정보를 찾아낸다는 관점에서 보면 데이터마이닝은 통계학과 매우 비슷합니다. 데이터를 탐색하고 분석하는 이론을 개발하는 학문 분야가 통계학이기 때문입니다. 데이터 마이닝에서 주로 사용하고 있는 방법론인 로지스틱 회귀분석(logistic regression), 주성분 분석(principal analysis), 판별 분석(discriminant analysis), 군집 분석(clustering analysis) 등은 통계학에서 사용되고 있는 분석 방법론입니다.

통계학과 데이터마이닝의 차이

통계학과 데이터마이닝의 차이를 살펴보면 통계학은 비교적 크지 않는 실험데이터를 대상으로 하는데 반해 데이터 마이닝은 비 계획적으로 축적된 대용량의 데이터를 대상으로 합니다. 통계학이 추정(estimation)과 검정(testing)이라는 이론을 중시하는 특징을 가졌다면 데이터마이닝은 이해하기 쉬운 예측모형의 도출에 주목합니다. 즉 데이터마이닝은 기업활동 과정에서 자연스럽게 축적된 대량의 데이터를 분석해 기업 경영에 필요한 가치 있는 정보를 추출하기 위해 사용됩니다. 이러한 이유로 데이터 마이닝을 “규모, 속도, 그리고 단순성의 통계학(statistics at scale, speed, and simplicity)”이라 부릅니다.

데이터마이닝과 KDD(Knowledge Discovery in Database)

데이터 마이닝과 관련된 용어로 KDD가 있습니다. KDD는 데이터로부터 유용한 지식을 찾아내는 과정을 분석에 필요한 데이터를 추출(Extraction) 해서, 사전처리(Preprocessing)와 변환과정(Transformation)을 거쳐 분석(Data Mining)하고 결과를 해석하는 과정이라 말할 수 있습니다. 데이터마이닝은 데이터 분석 과정의 핵심요소이며, 분석을 위한 데이터를 만드는 전 처리 과정이나 결과를 해석 평가하는 것은 넓은 의미로는 데이터 분석에 해당됩니다. 이런 관점에서 데이터 마이닝은 KDD의 구성요소라기보다는 KDD의 전 과정을 포괄하는 개념입니다.

[ KDD 구성도]

데이터마이닝 분석 과정

데이터마이닝은 기업 경영 활동 과정에서 발생하는 데이터를 분석하기 위한 목적으로 개발되었기 때문에 다양한 산업 분야에 공통적으로 적용되는 표준화 처리 과정이 제시되었습니다. 데이터 마이닝 표준 처리 과정(CRISP-DM, Cross Industry Standard Process for Data Mining)은 비즈니스 이해(Business Understanding), 데이터 이해(Data Understanding), 데이터 준비(Data Preparation), 모형(Modeling), 평가(Evaluation), 적용(Deployment)의 6단계로 구성되어 있습니다.

[ 데이터 마이닝 표준 처리 과정 (CRISP-DM) ]

데이터 마이닝은 학제적(interdisciplinary)인 특징을 가집니다. 기존의 통계적 분석방법론과 함께 기계학습(machine learning), 인공지능(artificial intelligence), 컴퓨터 과학(computer science) 등을 결합해 사용합니다. 통계적인 방법론뿐 아니라 기계학습, 신경망분석(neural network)등도 데이터로부터 정보를 추출하기 위한 다양한 접근방법 중 하나로 활용되고 있습니다. 기계학습 기법은 대량의 데이터를 강력한 계산능력을 활용해 빠르게 분석합니다.

데이터마이닝은 전문적인 소프트웨어 사용이 중요하다

데이터마이닝은 대용량 데이터를 활용해 다양한 분석방법론을 적용하기 때문에 전문 소프트웨어 사용이 필수적입니다. 데이터마이닝 소프트웨어는 데이터베이스 공급업체가 제공하는 제품군과 통계분석용 전문 소프트웨어로 구분할 수 있습니다. 데이터베이스 공급업체가 제공하는 데이터마이닝 소프트웨어로는 IBM의 Intelligent Miner, MS의 SQL Server 2005, 오라클의 Data Mining, 테라데이터의 Warehouse Miner가 있습니다.

데이터마이닝 분석용 소프트웨어로는 SAS의 Enterprise Miner, IBM의 SPSS Modeler(구 SPSS Clementine)가 있습니다. 최근 주목받고 있는 R은 오픈소스 형태로 무료로 사용할 수 있는 소프트웨어입니다. 그러나 사용자 친화적으로 설계되어 있지 않기 때문에 일반인이 이용하기에는 어려움이 많습니다.

데이터마이닝 활용분야

데이터마이닝은 다양한 분야에서 활용됩니다. 천체 관측 사진에서 행성과 성운을 식별하는 패턴인식(pattern recognition) 기법은 방위산업과 의료진단 분야에서 활용하고 있습니다. 데이터마이닝 활용이 가장 활발한 곳은 기업입니다. 널리 알려진 사례로는 장바구니 분석(Market Basket Analysis)이 있습니다. 할인점의 구매데이터를 분석한 결과 아기용 기저귀와 맥주가 함께 팔리고 있다는 사실을 발견해 할인행사나 매장의 상품 배치에 활용한 사례입니다.

반도체나 자동차, 소비재 등 제조업에서는 생산 공정 단계에서 발생하는 데이터를 분석해 불량품이 발생하는 원인을 규명하고 예방하는 품질관리(Quality Control)에 활용합니다. 금융 분야에서는 고객의 신용 등급에 따라 대출규모와 이자 등을 결정하는 신용점수 (Credit Score) 산정에 데이터 마이닝이 활용됩니다. 특이한 거래 행위에서 부정행위를 적발(fraud detection)하는 분야에도 활용됩니다. 잃어버린 신용카드의 부정 이용, 보험회사의 허위.과다 청구를 예방하기 위해 사용될 뿐 아니라 국민연금이나 의료보험의 부당 청구와 같은 영역에도 활용하고 있습니다.

고객관계관리(CRM, Customer Relationship Management)

데이터마이닝은 고객관계관리(CRM) 개념과 밀접한 관련을 맺고 있습니다. 고객관계관리는 기업이 소비자에게 상품과 서비스를 판매하는 과정에서 발생한 데이터가 중요한 정보로 활용될 수 있다는 생각이 확산되면서 등장했습니다. 고객관계관리는 기존의 데이터베이스 마케팅(Database Marketing) 개념에서 한 걸음 더 나아가 생산자 중심의 기업 활동을 소비자 중심으로 바꾸는 패러다임의 전환을 의미합니다.

고객의 행동을 파악하기 위해서는 데이터 관리와 분석이 필수적입니다. 이를 위해 데이터를 효과적으로 수집하고 분석하는 정보기술(IT, Information Technology)에 주목하게 됩니다. 데이터웨어하우스(DW, Data Warehouse)는 기업이 보유하는 대규모 데이터를 효과적으로 저장하고 관리할 수 있게 지원하는 시스템이다. 데이터 마이닝을 활용한 고객 데이터 분석도 이러한 효과적인 데이터 관리시스템이 지원했기 때문에 가능한 일이었습니다.

데이터의 양이 폭증하고 비정형 데이터가 중요한 의미를 지니는 빅데이터 환경에서 기존의 정보기술이나 분석 방법론은 새로운 전기를 맞고 있습니다. 그러나 소비자의 관점에서 기업 활동을 한다는 고객관계관리의 기본 사상은 변하지 않고 더욱 강조될 것으로 보입니다.

'빅데이터 > 빅데이터 처리' 카테고리의 다른 글

소셜분석(Social Analysis) (0)	2017.08.03
텍스트마이닝(Text Mining) (0)	2017.08.03
인-메모리(In-Memory) (0)	2017.08.03
하둡 분산 파일 시스템(HDFS, Hadoop Distributed File System) (0)	2017.08.03
대량의 로그 파일 수집 (0)	2017.08.03

류프리

데이터마이닝(Data Mining)

'빅데이터 > 빅데이터 처리' 카테고리의 다른 글

+ Recent posts

티스토리툴바