텍스트마이닝(Text Mining)

2017. 8. 3. 09:35

텍스트마이닝(Text Mining)이란 자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 가치와 의미 있는 정보를 찾아내는 마이닝 기법으로, 사람들이 말하는 언어를 이해할 수 있는 자연어처리(Natural Language Processing) 기술에 기반 한 기술입니다. 소셜 미디어에서 생산하는 데이터는 트위터나 Facebook의 포스팅된 글과 같이 비정형데이터이기 때문에 데이터 분석에 텍스트 마이닝을 활용할 수 있습니다.

텍스트 마이닝 기술로 사용자의 글을 분석하여 특정 상품이나 서비스에 대한 선호도 및 여론의 방향을 파악할 수 있습니다. 문장 형태의 비정형 데이터를 정형화하는 데이터 전처리 기술에 대한 노하우가 필요하며, 선호도를 파악할 수 있도록 호감(positive)과 비호감(negative)을 인지하는 단어에 대한 노하우가 필요합니다.

텍스트마이닝 기술체계

텍스트마이닝 기술체계는 자연어처리, 정보추출, 시각화, 데이터베이스 그리고 기계학습의 분야를 포함하고 있습니다. 텍스트마이닝 기법 중에 일반적인 방법은 특성벡터(feature vector)인데 특성추출(feature extraction) 과정을 통해 텍스트에 대한 특성백터를 생성하게 됩니다. 따라서, 텍스트 분석의 기반이 되는 것이 바로 특성추출에 의한 특성벡터이며 이의 통계수치는 각 분석기법들의 근거가 되는 것입니다.

특성추출(Feature Extraction)

특성추출은 텍스트에서 중요한 용어를 인식하여 추출해 내는 것으로 추출된 용어들은 일반적으로 단어의 원형(word)으로 변형되어 특성벡터를 구성하게 됩니다. 이러한 특성벡터는 문서를 분류하거나 요약하는데 기초정보로 사용되며, 특성의 중요성을 나타내는 가중치 함수와 지지도 함수의 계산은 단어가 발생한 위치와 발생한 횟수에 기반합니다. 가령, 한 문서 내에서 여러 번 나타나는 단어의 중요도는 높다고 가정하지만, 여러 문서에서 걸쳐서 발생도가 높다면 이 단어의 중요도는 낮다고 간주합니다.

따라서 가중치 부여함수의 계산에는 단어가 발생한 문서 개수의 역함수(reverse)값이 사용됩니다. 이에 기반한 기법은 텍스트에서 정보나 지식을 발견하고 추출하는데 사용되며 그 방법에 따라 크게 문서의 군집(clustering)화, 분류(classification)화, 요약의 세가지로 분류됩니다. 분류의 수행에 앞서 군집화를 먼저 수행시켜 전체 문서집합의 개요를 획득하고 분류를 위한 판단 기준을 얻어냅니다.

① Topic tracking 기법

토픽 트랙킹은 사용자 프로필을 기반으로 사용자의 관심 분야의 문서가 어떤 종류일지를 예측하는 시스템입니다. 사용자의 프로필은 사용자가 직접 키워드 단어 또는 카테고리를 지정하거나 지금까지 읽어온 문서의 내역에 기반을 두어서 작성할 수 있습니다. 예를 들어 이 시스템을 통해서 회사는 경쟁 업체의 동향을 손쉽게 관찰할 수 있을 것이고, 의료업계에서는 최신 연구결과와 신약정보를 놓치지 않고 제공받을 수 있습니다.

② Question Answering 기법

질의 응답 시스템이라고도 하는데 사용자가 자연 언어로 질문을 던지면 시스템이 질문에 대답을 제공해주는 시스템입니다.

③ Duo mining 기법

Duo-mining은 데이터마이닝과 텍스트마이닝을 함께 적용하려는 시도입니다. 예를 들어 CRM을 수행하려는 통신회사에서는 단순히 고객의 월간 통화량만을 데이터마이닝 기법으로 분석하여 CRM을 위한 고객군을 추출할 수도 있지만, 고객이 서비스센터에 요청한 내역을 텍스트마이닝 기법으로 분석하여 얻어진 정보를 함께 활용한다면 월간 사용량은 많으면서 현재 통신회사의 서비스에 불만을 가진 고객들을 불만 유형별로 관리할 수 있습니다.

④ 오피니언 마이닝(Opinion Mining) 기법

오피니언마이닝은 사람들이 특정 제품 및 서비스를 좋아하거나 싫어하는 이유를 분석합니다. 또한 어떤 사안에 대해서 여론이나 대중의 관심이 실시간으로 어떻게 변하는지를 확인합니다.

일반적 검색 방법

현재의 검색 방법은 질의어와 메타 데이터 간에 일치하는 단어를 찾아서 결과를 보여 줍니다. 하지만 사용자의 의도가 반영이 안되어 있어서 전혀 다른 결과를 내 놓을 가능성이 있습니다. 사용자의 의도가 무엇인지 파악하여 질의를 처리하는 것이 중요합니다. 이러한 이유로 주어진 조건과 상황에 따라 그에 맞는 ‘추천’을 오피니언의 흐름에 반영하여 제시하는 것이 중요합니다.

오피니언마이닝 처리절차

(1) 긍정 및 부정을 표현하는 단어 정보를 추출합니다. 기존에 구축된 사전등의 리소스를 이용하거나 수작업을 통해서 해당 도메인의 고빈도 긍정/부정을 표현하는 단어들을 확인할 수 있습니다.

(2) 세부 평가요소와 그것이 가리키는 오피니언의 연결관계를 포함한 문장을 인식합니다. 구축된 어휘 정보를 사용하여 세부 평가요소와 긍정/부정 표현을 찾습니다. 또한 긍정적인 오피니언인지 부정적인 오피니언인지 문장 단위로 분류하기 위해서 규칙기반 방법과 통계기반 방법을 동시에 사용할 수 있습니다.

(3) 긍정/부정 표현의 수 및 유용한 문장들을 추출하여 리뷰 요약을 생성합니다. 각 세부 평가요소에 대한 긍정 표현과 부정 표현의 차를 통하여 사용자들의 선호도를 제시할 수 있습니다.

'빅데이터 > 빅데이터 처리' 카테고리의 다른 글

맵-리듀스(Map-Reduce) (0)	2017.08.03
소셜분석(Social Analysis) (0)	2017.08.03
데이터마이닝(Data Mining) (0)	2017.08.03
인-메모리(In-Memory) (0)	2017.08.03
하둡 분산 파일 시스템(HDFS, Hadoop Distributed File System) (0)	2017.08.03

류프리

텍스트마이닝(Text Mining)

'빅데이터 > 빅데이터 처리' 카테고리의 다른 글

+ Recent posts

티스토리툴바