최근 인터넷이 활성화되면서 데이터베이스 기반이 아닌 무작위 형태의 새로운 데이터가 생성되는 경우가 많아지는 추세입니다특히전자상거래 관련 대부분의 웹사이트에는 사용자들로부터 정형화되지 않았지만 상당히 잠재적 가치를 지니고 있는 텍스트 데이터들이 엄청난 규모로 생성되고 있습니다최근기업에서 유용하고 잠재적인 정보를 발견하기 위해 많이 사용하는 데이터 마이닝 기술은 정형화된 형태의 데이터를 주대상으로 하고 있습니다.

 

그러나 대규모의 텍스트 데이터들은 구조적인 형태로 재구성하여 분석하기가 쉽지 않고대부분이 자연어로 쓰여진 문장 형태이기 때문에 함축된 정보를 추출하기가 쉽지 않습니다이러한 비 구조적인 텍스트 문서로부터 정보를 찾아 지식을 발견하는 것이 텍스트 마이닝입니다그러나텍스트마이닝은 정형화된 데이터를 위한 일반 데이터 마이닝에 비하여 정보 추출 능력이나 정확성 등 많이 떨어지는 경향이 있습니다.

 

데이터 마이닝이 구조적인 데이터를 대상으로 유용하고 잠재적인 패턴을 끌어내는 것이라고 한다면텍스트 마이닝은 자연어로 구성된 비구조적인 텍스트 안에서 패턴 또는 관계를 추출하여 지식을 발견하는 것으로 주로 텍스트의 자동 분류작업이나 새로운 지식을 생성하는 작업에 활용되고 있습니다.

 

오늘날 사용하는 대다수의 정보는 확실히 구조가 잡히지 않은 텍스트의 형태로 존재하기 때문에 자연어로 된 텍스트 문서의 자동화되고 지능적인 분석은 매우 중요합니다데이터 마이닝은 많은 기업들에서 데이터간의 관계패턴을 탐색하고 모형화하여 기업의 의사결정에 적용하기 위해 적용되며일반적인 데이터베이스와 같은 구조화된 자료에 초점이 맞춰져 있습니다따라서 데이터 마이닝 작업을 위해서는 적용될 데이터가 정확하고 표준화되어야 하며구조화가 잘 되어진 후에야 비로서 적용할 수 있을 것입니다.

 

 

데이터 마이닝의 개요

데이터 마이닝은 데이터베이스의 데이터처럼 정형화된 데이터를 대상으로 처리하기 때문에 텍스트 마이닝에 비하여 특성간의 연관성 파악이나 규칙 생성 등 매우 다양하고 강력한 알고리즘들이 많이 개발되고 있습니다특히 분류 작업의 경우 특성 벡터에 의존하는 텍스트 마이닝에 비하여 결정 트리신경망연관 규칙등 다양한 알고리즘이 지원될 수 있습니다.

 

데이터 마이닝의 이론은 실제적인 비즈니스 문제를 해결하는 솔루션으로 보다는 수학이나 통계 등으로 많은 사람들에게 알려져 왔습니다데이터 마이닝은 일반적으로 대량의 데이터로부터 과거에 알려지지 않았던 유용한 정보를 발견하는 기술로 정의될 수 있는데비즈니스 의사 결정에 마이닝의 결과를 활용할 수 있는 유용한 정보를 얻어내는 것이야 말로 성공적인 데이터 마이닝이라 할 수 있습니다.

 

데이터 마이닝이라는 용어가 등장한 것은 10년이 채 되지 않았으나실제 그 기술의 근원은 1950년대의 패턴 인식규칙 기반 추론(Rule Based Reasoning) 등의 인공지능 연구로 거슬러 올라가며주로 과학적인 적용 업무(Scientific Application)등에 사용되었습니다이후 관계형 데이터 베이스의 등장과 각 기업의 대량 데이터의 축적등이 데이터 마이닝 기술을 상업적 적용 업무(Commercial application)의 다양한 분야에 활용하게 하였습니다.

 

데이터 마이닝은 축적된 데이터에서 비즈니스에 대해서 알려지지 않은 정보를 발견하는 것입니다그런데데이터 마이닝을 이용하지 않고기본적인 통계 기술만을 이용하여 데이터베이스를 탐색하여 새로운 사실을 발견할 수도 있습니다실제로 비즈니스에 대하여 가설을 세우고그 가설을 증명하기 위한 분석 작업을 합니다.

 

 

데이터 마이닝 기술

일반적으로 데이터 마이닝 기술은 발견 마이닝(Discovery mining)과 예측 마이닝(Predictive mining)  2가지로 제공됩니다.

 

Discovery mining은 새로 발견될 패턴에 대한 사전 지식 없이 데이터 내에 숨겨진 패턴을 발견하는 기술입니다. Discovery mining은 다시3가지로 분류할 수 있습니다.

 

Clustering

클러스터링은 주어진 데이터를 속성이 유사한 그룹으로 나누는 기능을 갖습니다클러스터링의 목적은 이러한 유사 속성 그룹의 특성을 파악하고자 합니다.

 

Link analysis

아이템들간의 관계를 트랜잭션 데이터베이스에서 탐지하는 기능을 갖습니다.

 

Frequeny analysis

순서화된 데이터에 대한 분석과 관련된 기능을 갖습니다트렌잭션 데이터 또는 time sequence 데이터로 유사한 구조 또는subsequence를 탐지하고자 합니다.

 

Predictive mining은 과거 데이터 세트에서 변수간의 관계를 발견하는 기술입니다이 기술은 알려지지 않은 속성을 다른 속성들의 값을 기반으로 예측할 수 있는 모델을 생성합니다과거 데이터가 모델 생성시 사용되고 (훈련모드), 모델 생성시 사용되지 않았던 과거 데이터를 사용하여 모델을 테스트하고 (테스트 모드), 새로운 데이터를 사용하여 미래를 예측(적용모드합니다. Predictive mining은 다음과 같은 기법이 사용될 수 있습니다.

 

Classification

분류하고자 하는 데이터 필드를 포함하는 과거 데이터에서 모델을 생성합니다의사결정 트리가 대표적인 예이고고객 스코어링등에 사용됩니다적용모드에서 모델은 새로운 데이터에 적용되어 각 레코드별로 분류하고자 하는 데이터 필드(Classifier)에 값이 할당됩니다.

 

Value Prediction

예측하고자 하는 필드를 포함하는 과거 데이터에서 모델을 생성합니다각 레코드에 과거 데이터에 기반하여 가장 유사한 값을 예측하여 할당합니다.

 

 

데이터 마이닝의 중요 사항

데이터 마이닝의 가장 중요한 사항은 데이터를 수집하고 가공하는 이유가 무엇인지 이를 통해서 원하는 결과를 얻기 위하여 어떤 기법을 써야하는지에 대한 이해와 선택입니다데이터 분석은 지하에 묻힌 광물을 찾아낸다는 뜻을 가진 마이닝(mining)이란 용어로 부르게 된 것은 데이터에서 정보를 추출하는 과정이 탄광에서 석탄을 캐거나 대륙붕에서 원유를 채굴하는 작업처럼 숨겨진 가치를 찾아낸다는 특징을 가졌기 때문입니다.

 

데이터의 형태와 범위가 다양해지고 그 크기가 방대해지는 빅데이터의 출현으로 데이터 마이닝의 중요성은 한층 부각되고 있습니다특히 웹에서 엄청나게 빠른 속도로 생성되는 웹 페이지(web page) 콘텐츠와 웹 로그(web log), 소셜네트워크서비스의 텍스트 정보와 영상과 같은 비정형 데이터(Unstructured data)를 분석하기 위한 다양한 방법론이 등장해 데이터 마이닝의 포괄 범위는 확장되고 있습니다.

 

 

통계학과 데이터 마이닝의 유사점

데이터에서 정보를 찾아낸다는 관점에서 보면 데이터 마이닝은 통계학과 매우 비슷합니다데이터를 탐색하고 분석하는 이론을 개발하는 학문 분야가 통계학이기 때문입니다데이터 마이닝에서 주로 사용하고 있는 방법론인 로지스틱 회귀분석(logistic regression), 주성분 분석(principal analysis), 판별 분석(discriminant analysis), 군집 분석(clustering analysis) 등은 통계학에서 사용되고 있는 분석 방법론입니다.

 

 

통계학과 데이터 마이닝의 차이점

통계학과 데이터 마이닝의 차이를 살펴보면 통계학은 비교적 크지 않는 실험데이터를 대상으로 하는데 반해 데이터 마이닝은 비 계획적으로 축적된 대용량의 데이터를 대상으로 합니다통계학이 추정(estimation)과 검정(testing)이라는 이론을 중시하는 특징을 가졌다면 데이터 마이닝은 이해하기 쉬운 예측모형의 도출에 주목합니다즉 데이터 마이닝은 기업활동 과정에서 자연스럽게 축적된 대량의 데이터를 분석해 기업 경영에 필요한 가치 있는 정보를 추출하기 위해서 사용됩니다이러한 이유로 데이터 마이닝을 규모속도그리고 단순성의 통계학(statistics at scale, speed, and simplicity)”이라 부릅니다.

 

 

데이터 마이닝과 KDD(Knowledge Discovery in Database)

데이터 마이닝과 관련된 용어로 KDD가 있습니다. KDD는 데이터로부터 유용한 지식을 찾아내는 과정을 분석에 필요한 데이터를 추출(Extraction)해서사전처리(Preprocessing)와 변환과정(Transformation)을 거쳐 분석(Data Mining)하고 결과를 해석하는 과정이라 말할 수 있습니다데이터 마이닝은 데이터 분석 과정의 핵심요소이며분석을 위한 데이터를 만드는 전 처리 과정이나 결과를 해석 평가하는 것은 넓은 의미로는 데이터 분석에 해당됩니다이런 관점에서 데이터 마이닝은 KDD의 구성요소라기보다는 KDD의 전 과정을 포괄하는 개념입니다.

 

[ KDD 구성도]

 

 

데이터 마이닝 분석 과정

데이터 마이닝은 기업 경영 활동 과정에서 발생하는 데이터를 분석하기 위한 목적으로 개발되었기 때문에 다양한 산업 분야에 공통적으로 적용되는 표준화 처리 과정이 제시되었습니다데이터 마이닝 표준 처리 과정(CRISP-DM, Cross Industry Standard Process for Data Mining)은 비즈니스 이해(Business Understanding), 데이터 이해(Data Understanding), 데이터 준비(Data Preparation), 모형(Modeling), 평가(Evaluation), 적용(Deployment) 6단계로 구성되어 있습니다.

 

데이터 마이닝 표준 처리 과정 (CRISP-DM) ]

 

 

데이터 마이닝은 학제적(interdisciplinary)인 특징을 가집니다기존의 통계적 분석방법론과 함께 기계학습(machine learning), 인공지능(artificial intelligence), 컴퓨터 과학(computer science) 등을 결합해 사용합니다통계적인 방법론뿐 아니라 기계학습신경망분석(neural network)등도 데이터로부터 정보를 추출하기 위한 다양한 접근방법 중 하나로 활용되고 있습니다기계학습 기법은 대량의 데이터를 강력한 계산능력을 활용해 빠르게 분석합니다.

 

 

데이터 마이닝은 전문적인 소프트웨어 사용이 중요하다

데이터 마이닝은 대용량 데이터를 활용해 다양한 분석방법론을 적용하기 때문에 전문 소프트웨어 사용이 필수적입니다데이터 마이닝 소프트웨어는 데이터베이스 공급업체가 제공하는 제품군과 통계분석용 전문 소프트웨어로 구분할 수 있습니다데이터베이스 공급업체가 제공하는 데이터 마이닝 소프트웨어로는 IBM Intelligent Miner, MS SQL Server 2005, 오라클의 Data Mining, 테라데이터의 Warehouse Miner가 있습니다.

 

데이터 마이닝 분석용 소프트웨어로는 SAS Enterprise Miner, IBM SPSS Modeler( SPSS Clementine)가 있습니다최근 주목받고 있는 R은 오픈소스 형태로 무료로 사용할 수 있는 소프트웨어입니다그러나 사용자 친화적으로 설계되어 있지 않기 때문에 일반인이 이용하기에는 어려움이 많습니다.

 

 

데이터 마이닝 활용분야

데이터 마이닝은 다양한 분야에서 활용됩니다천체 관측 사진에서 행성과 성운을 식별하는 패턴인식(pattern recognition) 기법은 방위 산업과 의료 진단 분야에서 활용하고 있습니다데이터 마이닝 활용이 가장 활발한 곳은 기업입니다널리 알려진 사례로는 장바구니 분석(Market Basket Analysis)이 있습니다할인점의 구매 데이터를 분석한 결과 아기용 기저귀와 맥주가 함께 팔리고 있다는 사실을 발견해 할인 행사나 매장의 상품 배치에 활용한 사례입니다.

 

반도체나 자동차소비재 등 제조업에서는 생산 공정 단계에서 발생하는 데이터를 분석해 불량품이 발생하는 원인을 규명하고 예방하는 품질 관리(Quality Control)에 활용합니다금융 분야에서는 고객의 신용 등급에 따라 대출 규모와 이자 등을 결정하는 신용 점수 (Credit Score) 산정에 데이터 마이닝이 활용됩니다특이한 거래 행위에서 부정 행위를 적발(fraud detection)하는 분야에도 활용됩니다잃어버린 신용카드의 부정 이용보험회사의 허위.과다 청구를 예방하기 위해 사용될 뿐 아니라 국민연금이나 의료보험의 부당 청구와 같은 영역에도 활용하고 있습니다.

 

데이터 마이닝의 적용 분야 (출처: IBM) ]

 

 

고객관계관리(CRM, Customer Relationship Management)

데이터 마이닝은 고객관계관리(CRM) 개념과 밀접한 관련을 맺고 있습니다고객관계관리는 기업이 소비자에게 상품과 서비스를 판매하는 과정에서 발생한 데이터가 중요한 정보로 활용될 수 있다는 생각이 확산되면서 등장했습니다고객관계관리는 기존의 데이터베이스 마케팅(Database Marketing) 개념에서 한 걸음 더 나아가 생산자 중심의 기업 활동을 소비자 중심으로 바꾸는 패러다임의 전환을 의미합니다.

 

고객의 행동을 파악하기 위해서는 데이터 관리와 분석이 필수적입니다이를 위해 데이터를 효과적으로 수집하고 분석하는 정보기술(IT, Information Technology)에 주목하게 됩니다데이터웨어하우스(DW, Data Warehouse)는 기업이 보유하는 대규모 데이터를 효과적으로 저장하고 관리할 수 있게 지원하는 시스템이다데이터 마이닝을 활용한 고객 데이터 분석도 이러한 효과적인 데이터 관리시스템이 지원했기 때문에 가능한 일이었습니다.

 

데이터의 양이 폭증하고 비정형 데이터가 중요한 의미를 지니는 빅데이터 환경에서 기존의 정보기술이나 분석 방법론은 새로운 전기를 맞고 있습니다그러나 소비자의 관점에서 기업 활동을 한다는 고객관계관리의 기본 사상은 변하지 않고 더욱 강조될 것으로 보입니다.

 

 

데이터 마이닝의 사례

유통업자로서 다음과 같은 가설을 세운다면, “도심에 거주하는 고객 군이 상점에 방문 횟수는 작고 1회 구매 금액은 매우 크다.” 이 가설을 증명하기 위하여 데이터베이스내에 관련된 정보(상점지역매출액고객정보등)를 통합하여 쿼리합니다반대로 고객이 어떤 행동을 나타낼지 모르는 상태에서 고객이 거주하는 지역과 고객의 소비패턴과 어떤 관계가 있는가라는 질문에 답하려면데이터 마이닝이 그 역할을 담당할 수 있습니다.

 

사용자 대신 데이터 마이닝이 가설을 세우고 이러한 질문에 답을 하게 되는데데이터 마이닝의 결과로 다음과 같은 사실을 발견할 수 있습니다. “특정 지역에 거주하는 고객 중 소수의 수익성이 매우 좋은 고객군이 주말에 구매 금액이 매우 크다.” 다음 그림에서 보는 바와 같이 데이터 마이닝은 다른 분석 기법(쿼리다차원 분석등)과 차별화 됩니다.

 

표준 vs. 데이터 마이닝 접근법 (출처: IBM) ]

 

+ Recent posts