지난 2014년 개최된 브라질 월드컵의 우승팀을 유일하게 맞춘 이는 누구일까요? 사람도, 동물도 아닌, 바로 MS의 가상 비서 서비스인 '코타나'입니다. 국가별 우승 빈도와 피파 랭킹 등 데이터를 합쳐서 월드컵 우승팀 예측에 성공했는데요, 여기에는 바로 머신 러닝(Machine Learning)이라는 기술이 적용됐죠.

머신 러닝은 '컴퓨터를 학습시킬 수 있는가'라는 질문에서 시작했습니다. 인공지능이 인간과 같은 사고를 하는 컴퓨팅, 즉 사람처럼 행동하게 하는 그 모든 것을 총칭한다면, 머신 러닝은 데이터를 분석하여 숨겨진 특성, 즉 패턴을 발견해 학습 모델을 구축하는 기술입니다. 더 나아가 경험으로부터 습득한 지식을 기반으로 스스로 성능을 향상시키는 과학이라고 볼 수도 있습니다.

지금까지 IT 산업에서는 과거의 데이터를 이용해서 현재 상황을 설명하는 데 급급했습니다. 사람이 직접 실험으로 얻은 데이터를 대조해가며 숨겨진 패턴을 찾아야 했기 때문이죠. 그래서 “미래를 대비하여 이런 것을 미리 준비하는 것이 좋습니다”는 예측보다는, “과거에는 이런 일을 했습니다”라는 보고용 데이터를 만드는 데 그쳤습니다.

사실 많은 사람들이 알고자 하는 것은 바로 미래에 관한 예측 분석 보고서일 것입니다. 머신 러닝의 강점은 기계가 스스로 데이터에 숨겨진 속성을 찾아준다는 것입니다. 그래서 업무 방향성을 끌어나간다거나, 계약을 체결해야 할 비즈니스 결정자에게 머신 러닝은 유용한 기술이죠.

예를 들어, 소비자 3,000명의 상품 구매 정보를 갖고 있다고 가정해봅시다. 머신 러닝을 도입하면 사람이 하던 작업 속도보다도 빠르고 정확하게 '맥주를 구매한 사람이 기저귀도 함께 사는 경우가 많다'라는 결과를 얻을 수 있습니다. 이에 의사 결정권자는 맥주와 기저귀를 인접한 매대에 올려놓고 상품을 팔아서 수익을 더 많이 창출할 수 있겠죠.

한편, 머신 러닝과 유사한 딥 러닝이라는 용어가 있습니다. 딥러닝은 머신 러닝과 비교했을 때 메커니즘 측면에서 큰 차이가 없을 수는 있는데요, 딥러닝의 핵심 학습 방식은 바로 자율 학습(Unsupervised Learning)입니다.

보통 머신 러닝은 의미(레이블)을 부여한 훈련 데이터를 기반으로 다른 데이터를 파악하는 지도 학습(Supervised Learning)을 사용했습니다. 페이스북이나 맥의 아이포토에서 '이 사람이 영희다'라고 계속 입력해야 영희의 얼굴을 정확하게 인식할 수 있는 것이 바로 그 예죠.

그런데 비디오나 음성, 자연어 등 연속적인 데이터 스트림에서는 의미를 붙이기가 힘듭니다. 그래서 의미가 없는 데이터를 통해 기계가 스스로 결정하고 파악할 수 있는 자율 학습이 적합하다고 판단한 연구원들이 도전하는 분야가 바로 딥 러닝입니다.

그렇다면 왜 머신 러닝이 화두가 되고 있는 것일까요? 사실 머신 러닝이라는 개념은 1959년 논문을 통해 처음 언급됐을 정도로 그 역사는 깊습니다. 하지만 과거에 이 개념을 기술로 발전시키기에는 컴퓨팅 환경이 충분하지 않았죠. 다행히 최근 4~5년 사이 빅데이터라는 개념이 도입됨에 따라 수많은 데이터를 추출할 수 있는 기술이 발전했으며, 클라우드 컴퓨팅의 도입으로 컴퓨팅 인프라가 강화됐습니다. 이제 미래 예측이 필요한 그 모든 곳에서 머신 러닝을 활용할 수 있는 시대가 열린 셈이죠. editor@itworld.co.kr 

원문보기: 
http://www.itworld.co.kr/t/69500/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D/91546#csidx6202d1ee23addb89415599c5c2f0bd5 





머신 러닝이 데이터 깊숙이 묻혀 있는 패턴을 발견해준다는 점에서 애플리케이션의 성능을 높이고, 사용자의 수요에 더욱 민감하게 만들 수 있다는 잠재력이 있다. 제대로 고안한 알고리즘을 통해 인간의 사고와 분석적 한계를 뛰어넘어 엄청난 양의 이질적인 데이터로부터 가치를 뽑아낼 수 있다. 머신러닝은 개발자가 비즈니스에 필수적인 분석을 그 어떤 애플리케이션에도 적용하고, 고객 경험을 높이거나 제품 추천을 제공하고, 더욱 개인화된 콘텐츠를 제공하는 것까지 달성하게 해준다.

아마존과 마이크로소프트와 같은 클라우드 제공업체들은 개발자가 머신러닝을 손쉽게 통합할 수 있는 클라우드 기반의 솔루션을 제공함으로써 최근 화제를 불러일으켰다. 무엇인가 굉장해 보이기는 하나, 개발자들의 주의가 필요해 보인다.

클라우드 기반의 머신러닝 도구는 개발자가 머신러닝을 활용하여 참신한 기능을 구현할 수 있도록 한다. 하지만 이런 도구를 적절하게 활용하지 않으면 형편없는 결과로 사용자에게 좌절감을 줄 수 있다. 마이크로소프트의 나이 감지 머신러닝 도구를 시험해본 사람이라면 알겠지만, 사용 편의성이 뛰어난 만큼 중대한 정확도 문제가 대두한 바 있으며, 신뢰하거나 중요한 의사를 결정할 때 참조할 수 없는 경우도 많다.

머신 러닝을 자신의 애플리케이션에 도입하려는 개발자는 성공을 위한 일부 핵심 요소를 염두해야 한다.

1. 알고리즘의 데이터가 많으면 더욱 정확해진다. 따라서 가능하다면 부차 표본 추출은 피한다.

머신러닝 이론에는 예측 오차에 대한 매우 직관적인 특성이 있다. 쉽게 말해서 머신러닝 모델과 (이론상 최고의 오류를 달성하는) 최적 예측변수 사이의 예측 오차의 공백은 세 부분으로 분류할 수 있다.

1. 모델을 위한 적절한 기능적인 형태가 없기 때문에 발생하는 오차
2. 모델을 위한 최적의 파라미터가 없기 때문에 발생하는 오차
3. 모델에 충분한 데이터를 제공하지 않기 때문에 발생하는 오차

훈련 데이터가 제한된 경우 문제를 위해 필요한 모델 복잡성을 뒷받침하지 못할 수 있다. 통계의 기능적 법칙을 통해 우리는 가능하다면 부차 표본이 아닌, 우리가 가진 모든 데이터를 이용해야 한다.

2. 주어진 문제에 가장 적절한 머신러닝 학습법을 선택하는 것이 핵심이며, 이는 성공가 실패를 결정하기도 한다.
예를 들어, 정확도가 높은 GBT(Gradient Boosting Tree)는 업계 실무자들이 널리 활용하고 있는 인기 감독 학습 알고리즘이다. 하지만 그 높은 인기에도 불구하고 모든 문제를 위한 알고리즘으로써 맹목적으로 취급해서는 안 된다. 대신에 항상 가장 정확한 결과를 위해 데이터의 특성에 가장 적합한 알고리즘을 항상 사용해야 한다.

이 개념을 입증하기 위해 GBT와 선형 SVM(Support Vector Machine) 알고리즘 사이의 정확성을 인기 있는 텍스트 범주와 데이터세트 rcv1에서 비교하는 실험을 해봐도 된다. 실제로 실험해본 결과, 선형 SVM이 이 문제에 대한 오류율 측면에서 GBT보다 우월하다는 사실을 발견했다. 이는 텍스트 영역에서 데이터가 종종 고차원적이기 때문이다. 선형 분류자는 N개의 예시를 N-1 차원으로 완벽하게 분리할 수 있어, 단순한 모델은 이런 데이터에서 제대로 기능하게 된다. 게다가 모델이 간단할수록 한정된 수의 훈련 예제로 파라미터를 학습할 때 문제가 덜 발생하여 과적응을 방지하고 정확한 모델을 제공할 수 있다.

한편, GBT는 매우 선형적이며, 더욱 강력한 성능을 자랑하지만, 학습이 더 어렵고 이런 설정에서 과적응의 경향이 더욱 크다. 때로는 정확도가 떨어질 수도 있다.

3. 뛰어난 모델을 얻기 위해서는 방법과 그 방법에 관한 파라미터를 반드시 잘 선택해야 한다.
데이터가 공학자가 아닌 사람들에게는 간단하지 않을 수 있다. 현대의 머신러닝 알고리즘은 변경할 수 있는 부분이 많다. 예를 들어, 인기 있는 GBT 알고리즘 단독으로도 트리(Tree) 크기 제어 방법, 학습률, 행이나 열의 샘플 채취 방법론, 손실 함수, 조직화 옵션 등을 포함하여 최대 12개의 파라미터를 설정할 수 있다. 일반적으로 프로젝트에서는 각 파라미터에 대한 최적값을 찾아 주어진 데이터 세트에 대해 가장 높은 정확도를 얻어야 하는데, 그리 쉬운 일이 아니다. 직관과 경험이 도움되긴 하지만, 데이터 공학자는 최선의 결과를 위해 다수의 모델을 훈련하면서 교차 검증 점수를 파악하고, 다음에 시도할 파라미터를 결정하는 일을 고민해야 할 것이다.

4. 머신러닝 모델이 데이터와 마찬가지일 수도 있다. 부적절한 데이터 수집과 청소로 일반화가 가능한 예측 가능한 머신러닝 모델을 구축하는 능력이 저하될 수 있다.
주제와 관련된 전문가와 데이터를 신중하게 검토하여 데이터와 그 이면의 생성 프로세스에 대한 통찰력을 얻는 것이 좋다. 종종 이 과정으로 기록, 기능, 값, 샘플 채취 등과 관련된 데이터 품질 문제를 식별할 수 있다.

5. 데이터의 특징을 이해하고 (새로운 기능을 만들어내면서 기존의 것들을 없애) 향상시키면 예측 가능성을 높일 수 있다.
머신러닝의 기본적인 역할 중 하나는 머신러닝 알고리즘을 효과적으로 활용할 수 있는 풍부한 기능 공간에서 미가공 데이터를 표현하는 것이다. 예를 들어, 수학적 변화를 통해 기존의 기능을 토대로 새로운 기능을 개발하는 '기능 변화'는 이를 인기 있는 방법이다. 그 결과 기능 공간(즉, 데이터를 특징짓기 위해 사용하는 기능의 집합)은 (여러 기능들 사이의 비선형성과 상호작용 등) 데이터의 여러 복잡한 특성을 잘 잡아내며, 이는 다음 학습 프로세스에 중요하다.

6. 기업 가치에 부합하는 적절한 목적/손실 함수의 선택은 애플리케이션의 궁극적인 성공에 중요하다.
거의 모든 머신러닝 알고리즘이 최적화 문제로 표현되고 있다. 기업의 특성에 기초하여 최적화의 목적 함수를 적절히 설정하거나 조정하는 것이 머신러닝의 성공을 위한 핵심이다.

그 예로, SVM은 모든 유형의 오류의 가중치가 동등하다고 가정함으로써 바이너리 분류 문제에 대한 일반화의 오류를 최적화한다. 이는 고장 감지 등 특정 유형의 오류의 비용이 다른 것보다 더욱 중요할 수 있는 비용에 민감한 문제에 적합하지 않다. 이때, 가중치를 고려하기 위해 특정 유형의 오류에 더 많은 패널티를 더함으로써 SVM 손실 함수를 조정하는 것이 좋다.

7. 적절한 훈련 및 시험 데이터를 취급함으로써 모델을 제품에 배치할 때 시험 데이터를 유입되는 데이터처럼 보이도록 한다.
이 점이 시간에 의존하는 데이터일 경우 얼마나 중요한지 알 수 있다. 이때, 훈련, 조율, 시험 모델을 위해 표준 교차 검증 접근방식을 사용하면 잘못되거나 정확하지 않은 결과로 귀결될 수 있다. 그 이유는 배치 단계에서 유입되는 데이터의 특성을 적절히 모방하지 않기 때문이다. 이를 바로잡기 위해서는 배치 시 모델이 사용되는 방식을 반드시 모방해야 한다. 훈련한 모델을 시간의 측면에서 더욱 새로운 데이터에 대해 검증하는 시간 기준 교차 검증을 이용해야 한다.

8. 배치 전 모델의 일반화의 오류를 이해한다.
일반화의 오류는 모델이 보이지 않는 데이터를 얼마나 잘 처리하는지를 측정한다. 모델이 훈련 데이터를 잘 처리한다고 해서 반드시 보이지 않는 데이터에 잘 일반화되는 것은 아니다. 모델의 일반화의 오류를 예측하기 위해 실제 배치 용법을 모방한 신중하게 설계한 모델 평가 프로세스가 필요하다.

인지하지도 못한 채 교차 검증의 규칙을 위반하기 쉬우며, 교차 검증을 올바르지 않게 수행하는 방식이 명확하지 않아 연산을 위한 지름길을 이용하려 시도할 때 자주 발생한다. 배치 성능에 대한 과학적인 예측을 얻기 위해 모델을 배치하기 전에 적절하고 성실한 교차 검증에 주목하는 것이 중요하다.

9. 텍스트, 시계열, 공간, 그래프 데이터, 이미지 등의 비구조화 및 준구조화 데이터를 처리하는 방법을 파악한다.
대부분의 머신러닝 알고리즘은 각각 객체의 특성을 기술하는 일련의 기능으로 객체를 표현하는 기능 공간에서 데이터를 다룬다. 실제로 이런 형식으로 해당 세트에 도입되는 대신 데이터는 종종 미가공 형태로 유입되며, 머신러닝 알고리즘의 소비를 위해 반드시 바람직한 형태로 만들어야 한다. 예를 들어, 이로부터 다양한 특징을 추출하기 위해 다양한 컴퓨터 비전 기법을 사용하는 방법이나 텍스트를 특징짓기 위해 자연어 처리 기법을 적용하는 방법을 알아야 한다.

10. 기업 문제를 머신러닝 알고리즘으로 변화하는 문제를 학습한다.
사기 감지, 제품 추천, 표적 광고 등 기업에서 중요하게 여기는 일부 문제를 실제적으로 해결한 '표준' 머신러닝 공식이 있다. 이런 잘 알려진 문제뿐만 아니라, 덜 알려졌지만 예측 정확성이 더 높은 더욱 강력한 공식이 존재한다. 블로그와 포럼에서 일반적으로 논의하는 일련의 소규모 예시 외의 기업 문제의 경우 적절한 머신러닝 공식이 덜 명확하다.

개발자에게 있어서 이런 성공을 위한 10가지 핵심 요소를 학습하기가 것이 쉽지 않아 보일 수 있지만 낙담할 필요는 없다. 사실 개발자들은 데이터 공학자가 아니다. 개발자가 머신러닝이 제공하는 모든 도구를 활용할 수 있다고 생각하는 것 자체가 무리일 수 있다. 하지만 그렇다고 해서 개발자가 자신의 애플리케이션의 성능을 높이기 위해 일정 수준의 데이터 공학을 배우지 않아도 된다는 것은 아니다. 적절한 기업 솔루션과 향상된 자동화가 있으면 개발자는 높은 정확성을 보유한 머신러닝 모범 사례를 이용해 모델 구축부터 배치까지 모든 것을 할 수 있다.

자동화는 애플리케이션 내 머신러닝 확산의 핵심이다. 개발자와 밀접히 협력할 수 있는 소수의 데이터 공학자를 확보할 수 있다 하더라도 충분한 인력을 확보할 수는 없다. 스카이트리(Skytree)의 오토모델(AutoModel)의 사례가 모델 정확성 최대화를 위한 최적의 파라미터와 알고리즘을 자동으로 결정하는 데 도움이 될 수 있다. 사용이 간편한 인터페이스를 통해 개발자는 훈련, 조율, 시험 모델의 과정을 거치면서 통계적 실수를 방지할 수 있다.

머신러닝 프로세스 내의 자동화는 여러 측면에서 데이터 공학자나 개발자를 위해 인공지능의 원리를 통합하고, 알고리즘이 생각하고 학습하는 모델 구축 작업의 부담을 크게 덜어줄 수 있다. 즉, 데이터 공학자를 머신러닝과 분리하여 생각할 수 있다는 생각이 실수이며, 특히 업무에 필수적인 모델의 경우에는 더욱 그렇다. 기초 기술의 정확함, 정교함, 확장성 등에 대한 생각 없이 적용할 수 있는 간편한 머신러닝 기능의 가능성을 인지하자. 이를 통해 높은 예측 정확성과 머신러닝이 제공해야 하는 이로 인한 높은 비즈니스적 가치를 얻을 수 있다. 게다가 애플리케이션에서 형편없는 모델을 제공하면 실제로 역효과를 낳고 사용자들 사이에서 제품이나 서비스에 대한 불신이 신속하게 쌓일 수 있다. editor@itworld.co.kr 

원문보기: 
http://www.itworld.co.kr/news/94517?page=0,1#csidx620e9bed4447bedb465e0344a220834 






최근 구글의 머신러닝 기반의 인공지능 바둑 알고리듬인 알파고(AlphaGo)와 이세돌 9단과 바둑 대결이 학계와 IT업계는 물론, 일반인들에게도 큰 관심을 끌고 있다.

구글의 모기업인 알파벳(Alphabet)과 바둑(Go)의 합성어인 '알파고'는 딥마인드의 머신러닝과 시스템 신경과학 분야의 기술을 활용해 고전 전략 게임인 바둑에서 프로 바둑 기사를 이길 수 있도록 설계된 인공지능 프로그램이다.

바둑은 인간이 즐기는 경기 가운데 가장 많은 경우의 수를 갖고 있는 굉장히 복잡한 게임으로 컴퓨터가 프로 기사를 이기는 것은 아주 오랜 시간이 걸릴 것으로 예상되어 왔다. 그러나 알파고 팀은 유럽 바둑 챔피언인 판후이를 런던 사무실로 초청해 경기를 진행했는데, 알파고가 판후이를 5대 0으로 이겨 프로 기사를 이긴 최초의 프로그램이 되었다. 2016년 3월, 알파고는 서울에서 이세돌 9단과 경기를 진행할 예정이다.

2014년 1월, 구글은 영국 런던의 인공지능업체인 딥마인드(DeepMind)를 인수했는데, 이 인수전에는 IBM, 페이스북 등이 참여했었다.

구글, 이번엔 인공지능 업체 인수 … 대용량 데이터 분석 알고리듬 강화
구글 딥마인드, 게임법을 스스로 터득하는 'DQN' 개발

머신러닝(Machine Learning)이란 알고리즘을 기반으로 컴퓨터를 학습시킴으로써 방대한 데이터를 분석해 그 결과를 예측하는 것을 말한다. 직역하면 기계학습이라고 부르는 이 기술은 인공지능(Artificial Intelligence)의 한분야로 빅데이터 핵심 기술로 각광받고 있다.

ITWorld 용어풀이 | 머신 러닝(Machine Learning)
“기계에 지능을 더하는” 머신러닝의 이해 - IDG Tech Report 

머신러닝은 데이터를 수집, 분석해 미래를 예측한다는 목적은 여타 빅데이터 분석과 유사하지만 컴퓨터 스스로가 방대한 데이터를 수집, 학습할 수 있다는 점에서 차이를 두고 있다.
또한 인공지능에서 빠질 수 없이 거론되는 딥 러닝(Deep learning)은 머신러닝 기법 가운데 하나로, 머신러닝의 가장 어려운 문제를 해결할 잠재력을 지닌 지도 러닝(supervised learning) 기술이다.

머신러닝 입문 가이드 - IDG Deep Dive 

머신러닝의 기술적인 토대가 만들어진 시기는 50여 년 전이지만 얼마 전까지만 해도 학계를 벗어나면 머신러닝의 인지도는 미미했다. 머신러닝에는 막대한 컴퓨팅 자원이 필요한데, 이를 비용 효율적으로 사용할 수 있는 인프라를 갖추기 어려웠기 때문이다.

최근 머신러닝에 대한 관심과 활동이 폭증한 이유는 다음과 같다.
- 무어의 법칙(Moore's Law)으로 컴퓨팅 비용이 급격히 낮아져 지금은 최소한의 비용으로 강력한 컴퓨팅 성능을 폭넓게 이용할 수 있다.
- 새롭고 혁신적인 알고리즘이 더욱 빠른 결과를 제공한다.
- 데이터 과학자들이 머신러닝을 효과적으로 적용하기 위한 이론과 실무 지식을 축적했다.

무엇보다 빅데이터가 대대적으로 도입되면서 일반적인 통계 기술로는 해결이 불가능한 분석 문제가 발생했다. '필요가 곧 발명을 낳는다'는 말이 있듯 기존 통계 분석 방법으로 풀 수 없는 비즈니스 과제들이 발생해 새로운 빅데이터 분석기술이 필요하게 된 것이다.

“머신러닝이 다시금 주목을 받을 수 있었던 이유는...” 서울대 노영균 교수

머신러닝이 현재 부상하는 기술이라고 하지만 실제 적용된 사례는 이미 상당히 많다. 사기 방지, 타겟팅 디지털 디스플레이, 콘텐츠 추천, 자동차 품질 개선, 유망 잠재 고객에 집중, 미디어 최적화, 의료보건 서비스 개선 등 전 산업군에 걸쳐 활용되고 있다.

머신러닝, 소프트웨어 버그 수정에 탁월…10배 성능과 파급 효과 기대 : MIT

이런 무궁무진한 가능성으로 인해 구글, 야후, 네이버, 카카오 등 초대형 데이터를 다루는 업체뿐만 아니라 IBM, 마이크로소프트, SAS, 스플렁크와 같은 빅데이터 솔루션 업체들도 머신러닝 전문업체들을 인수하는 등 대규모 투자를 아끼지 않고 있다.

IBM, 스파크 기반의 머신 러닝 서비스 예정…블루믹스와 통합
MS, 데이터 예측 분석 서비스 ‘애저 머신 러닝’ 국내 출시
스플렁크, '스플렁크라이브!' 개최...신제품 대거 출시
“SAS코리아, 국내 BI 및 고급 분석 툴 소프트웨어 시장 선도”...한국 IDC

현재 머신러닝 분야에서 빠른 행보를 하는 업체는 단연 구글이다. 머신러닝을 위시한 인공지능에 사활을 걸고 있는 구글은 관련 기술에 집중 투자를 하면서 세간의 이목을 집중시키고 있다.

구글 CEO 피차이는 "머신러닝과 인공지능에 대한 구글의 투자는 최우선순위 사업"이라며 "머신러닝과 인공지능을 검색, 광고, 유튜브, 구글 플레이 등 모든 제품에 적용하고 있다. 아직 초기 단계지만, 곧 조직적인 구글의 인공지능 사업이 윤곽을 드러낼 것이다. 모든 분야에 머신러닝이 적용되는 세상을 상상해 보라"고 강조했다.

‘머신러닝의 중요성 강조한’ 구글 알파벳의 첫 실적 발표
구글 인박스, 머신러닝으로 이메일 답장 속도 높인다
구글, “머신러닝으로 스팸 메일 잡는다”…지메일 관리 도구 포스트마스터 개발

특히 구글은 2015년 11월 앱의 지능 향상을 목표로 하는 머신러닝 프로젝트인 텐서플로우(TensorFlow)를 오픈소스로 공개했다. 텐서플로우는 스마트폰과 데이터센터의 수천만 대 컴퓨터에서 모두 실행할 수 있는 구글의 차세대 내부 머신러닝 시스템이다.

구글, 오픈소스 툴 ‘텐서플로우’공개… 머신러닝 기술 외부로 오픈한다
구글의 텐서플로우 공개가 중요한 4가지 이유

구글이 이를 오픈소스화함으로써 머신러닝 기술은 오픈소스라는 새로운 발전 동력원이 생겼다.  구글이 텐서플로우를 오픈소스로 공개한 지 며칠이 지나지 않아 마이크로소프트도 DMLT(Distributed Machine Learning Toolkit)이라는 자체 머신러닝 프로젝트를 오픈소스로 공개, 배포했다.

MS, 머신러닝 오픈소스 툴킷 DMLT 공개

이어 야후는 머신러닝 과학자들을 대상으로 지금까지 중 가장 큰 데이터 집합을 공개했다. 공개된 데이터는 사용자가 뉴스를 클릭한 시간, 뉴스 피드를 본 후의 활동 등을 담은 총 1,100억 건의 기록이며, 용량은 13.5TB, 또는 압축해서 1.5TB다. 야후는 지난 번 공개된 데이터 집합보다 약 10배 더 큰 규모라고 밝혔다. 야후는 지난 해에도 마케팅 업체 크리테오(Criteo)를 통해 1TB 용량에 40억 건의 데이터를 공개한 바 있다.

야후는 "데이터는 머신러닝 연구의 생명선과 같다"며, "그러나 진정한 대규모 데이터 집합에 접근하는 것은 대형 업체 소속의 머신러닝 연구자, 데이터 과학자에게만 허락된 특권이었고, 학계 연구자에게는 매우 어려웠다"고 데이터 공개 목적을 밝혔다.

"관대한 야후", 1,100억 건 사용자 행동 데이터 머신러닝 연구용으로 공개

그러나 현재 밝혀진 머신러닝 기술 속에는 상당한 거품이 존재한다는 시각도 있다. 가트너는 2015년 주목해야 할 미래 기술 분야로 머신러닝을 선정한 바 있다. 하지만, 2015년 신기술 하이프 사이클에서는 빅데이터를 대신해 최정점에 위치하면서 허황된 기대가 가장 극심한 수준인 5개 기술 가운데 하나로 지목했다.


출처. 가트너 2015

글로벌 칼럼 | 머신러닝과 달콤한 가짜 약

머신러닝 전문가들은 이런 주장을 일축한다. 현재 머신러닝은 과대포장된 것이 아니라 오히려 과소평가를 받고 있다는 것이다.

하버드 대학 정량사회과학(Quantitative Social Science) 연구소 책임자 개리 킹은 "머신러닝은 결코 헛된 망상이 아니지만 그렇다고 무슨 일이든 척척 해낸다는 의미는 아니다"며, "지금은 머신러닝이 효과를 제대로 발휘하지 못하는 분야가 있으며, 머신러닝을 사용해 좋은 결과를 얻지 못하는 경우도 많지만 이를 이끄는 것이 숙련된 인력"이라고 설명했다.

머신러닝이 데이터 깊숙이 묻혀 있는 패턴을 발견해준다는 점에서 애플리케이션의 성능을 높이고, 사용자의 수요에 더욱 민감하게 만들 수 있다는 잠재력이 있다. 제대로 고안한 알고리즘을 통해 인간의 사고와 분석적 한계를 뛰어넘어 엄청난 양의 이질적인 데이터로부터 가치를 뽑아낼 수 있다는 것이다.

머신러닝은 개발자가 비즈니스에 필수적인 분석을 그 어떤 애플리케이션에도 적용하고, 고객 경험을 높이거나 제품 추천을 제공하고, 더욱 개인화된 콘텐츠를 제공하는 것까지 달성하게 해준다.

아마존과 마이크로소프트와 같은 클라우드 제공업체들은 개발자가 머신러닝을 손쉽게 통합할 수 있는 클라우드 기반의 솔루션을 제공함으로써 최근 화제를 불러일으켰다. 무엇인가 굉장해 보이기는 하나, 개발자들의 주의가 필요해 보인다.

클라우드 기반의 머신러닝 도구는 개발자가 머신러닝을 활용하여 참신한 기능을 구현할 수 있도록 한다. 하지만 이런 도구를 적절하게 활용하지 않으면 형편없는 결과로 사용자에게 좌절감을 줄 수 있다.

마이크로소프트의 나이 감지 머신러닝 도구를 시험해본 사람이라면 알겠지만, 사용 편의성이 뛰어난 만큼 중대한 정확도 문제가 대두한 바 있으며, 신뢰하거나 중요한 의사를 결정할 때 참조할 수 없는 경우도 많다.

머신러닝을 자신의 애플리케이션에 도입하려는 개발자는 성공을 위한 일부 핵심 요소를 염두해야 한다. 결국 머신러닝 기술 또한 무조건 도입한다고 효과를 얻을 수 있는 만능의 비약이 아니라 관련 데이터를 수집, 분석해 미래를 예측하는 도구에 불과하다는 점을 인지해야 한다. editor@itworld.co.kr

원문보기: 
http://www.itworld.co.kr/t/65210/bi%20%7C%20%EB%B6%84%EC%84%9D/97824#csidx74f0705c0b9b352ab2dd23afcee9b0a 





현업 사용자들이 직접 BI에 접근하고 툴을 사용하는 이른바 '새로운 분석'의 시대가 도래했다.

약 2년 전, 케어퍼스트 블루크로스 블루실드(CareFirst BlueCross BlueShield)는 기업 전체에 산재하고 있는 복수의 스토리지로부터 얻은 막대한 분량의 데이터를 취합하고 분석하기 위해 셀프서비스 BI를 구축했다.

캘리포니아의 팔로 알토에 위치한 클릭테크(QlikTech)가 개발한 이 기술은 CA 테크놀로지스의 프로젝트 관리 제품에 대한 보완재로 도입됐다. 현재까지 케어퍼스트는 프로젝트 비용에서 1,000만 달러를 절감할 수 있었으며 이것을 사용하는 외부 계약업체를 25%까지 줄일 수 있었다.

과거 18개월이 소요되던 활동은 현재 2일 이내에 가능해 졌다. 또한 프로젝트 관리 부서는 더 이상 BI 보고서를 작성하기 위해 중앙의 분석팀에게 기댈 필요가 없게 됐다.

매릴랜드(Maryland)에 있는 케어퍼스트 같은 기업들은 전문가들이 말하는 BI 및 데이터 분석 활동에서 극적인 변화에 직면하고 있다.

컨설팅 기업 PwC는 이것을 ‘새로운 분석’이라고 부르고 있다. 중앙에 집중된 하향식 데이터 수집, 보고, 분석에 의존하는 기존의 BI 및 데이터 분석모델과는 이 새로운 물결은 BI 보고 및 데이터 분석의 최대 수혜자인 영업부문 사용자들에게 직접 접속권한과 툴을 제공하는 것이라고 지난 화요일에 공개한 보고서에서 PwC가 밝혔다.

"새로운 분석은 중앙부서가 분석할 수 없는 해답을 찾기 위해 광범위한 비즈니스 생태계의 전문지식을 활용한다"라고 PwC는 전했다. "중앙식 분석을 위한 당면과제는 사업부가 스스로 어떤 것을 찾고 있거나 어떤 증거를 원하고 있는지 확신이 서지 않을 때 현업의 필요에 부응하는 것이다. 새로운 물결은 발견을 위해 노력하는 사람들에게 접속권한과 툴을 제공한다."

새로운 분석의 배경
BI시장에서 두 가지 트렌드가 변화를 이끌고 있다. 하나는 클라우드 컴퓨팅, 모바일 컴퓨팅, 소셜 미디어 등으로 인한 데이터의 폭발적인 증가다. 저렴한 하드웨어, 메모리, 스토리지 기술 덕분에 기업들이 거대하면서 다양하고 빠르게 성장하는 데이터 세트를 손쉽게 수집할 수 있게 됐다는 점이다. 현재 많은 기업들이 이 모든 데이터를 검토하고 분석해 비즈니스적 장점을 누릴 수 있는지 조사하고 있다.

또 다른 트렌드는 기업들이 좀 더 쉽게 거대한 데이터 세트를 취합하고 분석할 수 있도록 하는 툴의 이용성 증가다. 많은 툴들이 빅 데이터를 취급하고 인메모리 데이터베이스, NoSQL 지원, 데이터 시각화, 연합 검색, 자연어 처리 등 기업들이 데이터를 좀 더 쉽고 빠르게 분석할 수 있도록 하는 기능을 포함할 수 있도록 설계되고 있다.

예를 들어, 케어퍼스트는 셀프서비스 BI 클릭뷰(QlickView) 기술을 이용해 전통적인 BI 접근방식으로 투자한 시간과 노력의 일부만으로 프로젝트와 자원에 대한 실시간 가시성을 확보할 수 있다고 매릴랜드에 있는 케어퍼스트 PMO 담당 이사 캐롤 처치는 말했다.

이 기술을 통해 케어퍼스트는 복수의 데이터 스토리지에서 데이터를 수집하고 속도가 빠른 인메모리 데이터베이스에서 한데 취합해 예전보다 더욱 빠른 속도로 모든 종류의 분석을 수행한다.

전통적인 분석 처리 툴을 이용하는 분석가들은 우선 일련의 질문을 개발하고 IT가 관련 데이터를 취합하길 기다렸다가 데이터를 다듬고 상이한 데이터 요소들 사이에서 통로를 구축하여 분석을 가능하게 한다고 매년 120~140개의 프로젝트를 관리하고 있다는 처치는 말했다.

한편, 애널리스트들은 클릭뷰를 이용해 데이터 요소를 자유롭게 비교하고 상황에 따라 애드 혹(Ad Hoc) 기반으로 관련성을 찾는다고 그녀가 말했다.

이와 유사한 기능을 활용하고 있는 또 다른 기업은 시멘트블록(CementBloc)으로 뉴욕에 있으며 거대 제약회사들이 의사소통과 마케팅 전략을 미세조정하고 최적화할 수 있도록 돕고 있다. 해당 기업은 팁코의 스폿파이어(Sportfire) 분석 플랫폼을 이용해 복수의 정보 출처로부터 얻은 데이터를 통합 및 분석하고 있다.

"전통적인 BI 툴을 사용할 때는 무엇을 예측하게 될지 알아야 한다"라고 시멘트블록의 정보 및 분석담당 부사장 아이라 하이모위츠는 말했다. "고객 부분, 위치, 프로그램에 관한 지도별로 무엇을 예측하게 될지 알아야 하며, 그 다음 쿼리와 보고서를 생성해야 한다"라고 하이모위츠가 설명했다.

스폿파이어의 인메모리 데이터베이스 기술과 검색 및 데이터 시각화 역량을 통해 이런 요건을 상쇄할 수 있다. 이 기술 덕분에 시멘트블록은 마음대로 거대하고 다양한 데이터 세트를 연구하고 이전에는 알지 못했던 데이터 요소들 사이의 관계를 발견할 수 있게 되었다고 그가 말했다.

클릭뷰와 팁코만이 BI, 데이터 시각화, 데이터 분석 툴을 제공하는 것은 아니다. 지난 몇 년 동안 버스트(Birst), 타블로(Tableau), 데이터미어(Datameer), 스플렁크(Splunk) 등 많은 IT업체들이 새로운 BI 애플리케이션을 내놓으며 IBM, 테라데이타, SAS 등과 경쟁하고 있다.

해당 툴들을 통해 기업들은 "데이터를 수집하고 이동하여 분석할 수 있는 더 많은 방법을 얻게 되었다"라고 PwC의 적용 분석 책임자 빌 아보트는 말했다. 일부 기업들은 이런 툴들을 적용하여 기존의 데이터 세트를 통합, 추출, 분석하고 있다. 다른 많은 기업들이 하둡 등의 빅 데이터 기술에 기반하여 새로운 데이터 인프라 위에서 이것들을 사용하고 있다고 아보트가 말했다.

"20년 전에는 요건 취합을 매우 강조했었다. 왜냐하면 모든 대답을 사전에 계산하고 싶어했기 때문이다"라고 클릭테크의 CTO 안토니 다이튼이 말했다. "사용자들이 물어보고 싶어할만한 모든 질문을 미리 예상해야 했다. 이를 통해 BI 프로젝트를 위한 서비스 중심적인 이행 모델을 얻을 수 있었다"라고 그는 전했다.

PwC는 자사 보고서에서 새로운 분석은 "예상하지 못했던 기회와 위협을 검출하거나 존재를 알지 못했던 미래의 고객이 될 수 있는 사람들을 찾아내는 것이다"라고 밝히고 있다. "이것은 중요하다고 생각했던 것들이 아니라 실제로 무엇이 중요한지를 배우는 것이다. 이것은 기업이 가장 크게 변화시켜야 할 부분을 찾고 수용하여 이행하는 것이다." ciokr@idg.co.kr

원문보기: 
http://www.ciokorea.com/news/12664?page=0,1#csidxe618239bb5126c996a3e62ede213ab2 





기업들이 앞다퉈 빅 데이터라는 정보의 망망대해로 뛰어들고 있다. 빅 데이터 세계에 입문한 기업들에게 현재 필요한 것은 이것을 분석하고 유의미한 지식을 뽑아낼 수 있는 BI와 BA다.

비즈니스 데이터의 급격한 확장세가 유럽, 특히 영국의 벽 앞에서는 주춤하고 있다. 이러한 현상은 영국의 비즈니스 애널리틱스 현황을 연구한 에버딘그룹(Aberdeen Group)의 ‘비즈니스 인사이트로의 데이터 전환(Transforming Data into Business Insight)’ 보고서를 통해서도 확인할 수 있다.

하지만 골치 아프다는 이유만으로 외면하기엔 이 새롭고 복잡한, 그리고 다양한 데이터 셋이 기업들에 제공하는 잠재적 비즈니스 가치가 너무 크지 않은가? 다음의 세 단계를 따라 새로운 가치를 창출해 보자.

-기업 데이터 저장소에 적용할만한 가치가 있는 데이터 소스를 확인하라
-강력한 확장형 데이터 관리 기반을 설립하라
-데이터 상부에 새로운 분석 툴을 적용해 새로운 시각을 확보하라


2012년 1월 진행된 에버딘의 ‘BI를 위한 데이터 관리(Data Management for BI )’ 연구는 현재 5TB 이상의 비즈니스 데이터를 관리하며 공식적인 기업 수준의 빅 데이터 전략을 수립 중인 99개의 기업을 대상으로 진행됐다.


 

빅 데이터 확보에 나선 기업들
오늘날 데이터 관리에 요구되는 전략과 툴은 지속적인 개발이 진행되고 있으며 시장의 도입 추세 역시 증가하는 경향을 보이고 있다.

흥미로운 점은 빅 데이터 계획에 대중적으로 사용되는 대부분의 데이터 소스가 최소한의 데이터 발자국(data footprint)만을 가진다는 사실이다.

업무 정보와 같은 관련 데이터베이스 내 정형 데이터는 연간 36% 수준의 증가 폭을 보여주고 있지만, 이는 여타 인터넷 기반 데이터 소스가 보여주는 증가 폭과 비교하면 상당히 적은 수준에 불과하다.

그러나 기업들의 입장은 달랐다. 자신들의 전반적인 빅 데이터 활동에서 이들 정형 데이터가 중요하다고, 혹은 매우 중요하다고 응답한 기업은 전체의 93%에 달했다.

기업들은 이러한 정보가 자신들이 진행하는 프로젝트의 핵심을 구성하며, 다른 데이터 소스들은 영업이나 소비자, 상품에 관하여 축적된 이들 정보를 보조하고 여기에 추가적 시각을 제공해 주는 것이라 평가하고 있었다.

일반적으로 애용되는 또 다른 데이터 소스로는 인터넷 사용 및 소셜 미디어 행동 양식 통계가 있었다. 이는 기업들에게 소비자 행동 양식과 자사 상품 및 서비스의 성공 여부에 대한 시각을 제공해 준다.

또한, 무선 인터넷 속도의 증대로 비디오와 오디오의 원활한 스트리밍을 지원하는 것이 가능해짐에 따라, 소비자들은 보다 다양한 포맷의 정보들에 접근할 수 있게 되었다.

이 광활한 미디어 공간은 어떤 미디어 형식의 어떤 주제에 대중들이 관심을 보이고 있는지에 대한 분석 능력을 기반으로 기업들에게 소비자 기반과의 적극적인 소통의 기회를 제공해 준다.


빅 데이터를 위한 인프라
에버딘의 연구에 따르면, 많은 기업들이 새로운 데이터 소스에 대한 지원 구조를 확립하는 과정에서 이것의 일부 기초적인 요소를 그들의 IT인프라로 끌어들이고 있었다.

빅 데이터, 빅 무브(Big Data, Big Moves, 2011 8월)에서 언급된 바와 같이, 데이터 압축 및 데이터 중복 제거 솔루션은 기업 인프라의 과도한 파일을 제거하고 요구 스토리지 공간을 줄이는데 사용된다.

기업들은 또한 최종 사용자와 의사 결정권자들이 데이터 분석 과정을 통제할 수 있도록 하는 셀프 서비스 툴을 통해 IT 사업부로부터 전달 받는 보고의 부담을 덜고 직원들이 필요할 때면 언제든 정확한 데이터에 근거해 신속하고 편리하게 문제의 해답을 찾아낼 수 있길 요구하고 있다고 설명하기도 했다.

빅 데이터에 대한 최근의 관심은 대부분 새로운 테크놀로지에 향해 있다. 오늘날 시장에 소개된, 혹은 여전히 개발이 진행 중인 이 테크놀로지들은 다양한 영역에서 수집 되는 막대한 데이터 셋을 정확하게 관리하고 분석할 것이다.

이들 중 어떠한 툴이 기업에 가장 강력한 가치를 가져다 줄 지를 확인하기 위해 CIO는 기업의 현재 요구와 미래의 상품 및 서비스와 관련한 장기적 비전을 파악해야 할 것이다.

오늘날 시장에 소개된 솔루션들은 실시간으로 대량의 데이터를 처리하고 다양한 형태의 비정형, 반정형 데이터의 검색 및 분석을 지원하는, 그리고 이렇게 생성된 정보를 여러 장소의 모든 이들에게 전달하는 역할을 한다.

에버딘의 연구는 여러 주요 테크놀로지 영역에서 중요한 성장 잠재력들이 포착되고 있으며, CIO들은 그들의 비즈니스를 지원하기 위해 이들을 확인하고 평가해야 한다는 사실을 보여주었다.

이들 기관의 연구는 또한 자신들의 데이터 중심 과제에 박차를 가하고 보다 빠른 인텔리전스 전달을 꾀하는 기업들에서의 인 메모리 기술(in-memory technology, 이는 전통적인 툴의 100배 수준의 속도를 담보한다)과 이를 통한 프로세싱 스피드 증대에 대한 막대한 관심을 보여 주기도 있다.

빅 데이터의 빅뱅
실시간 통합은 데이터 셋들에 현재의 정보가 보다 빠른 속도로 업데이트 될 수 있도록 하는 일종의 상호 보완적인 테크놀로지이다.

이들 정보를 적합한 이의 손에 쥐어 주는 것이 이 프로세스의 마지막 단계이다. 스마트폰의 시대인 오늘날, 기업들은 직원이 어디에 있건 모바일 애플리케이션과 테크놀로지를 통해 그들에게 BI 역량을 전달할 수 있게 되었다.

빅 데이터의 미래는 말 그대로 가능성과 흥분의 도가니가 될 것이다.

지금까지 결합되지 않았던 데이터들을 한데 모아 새로운 시야를 창출하고, 또 이를 지금까지와는 비교할 수 없는 속도로 사용자들에게 전달하는 과정은 우리에게 놀라움을 선사하고 있다. 그러나 이는 빙산의 일각에 불과하다.

이 새로운 정보 혁명의 시대에서 CIO의 역할은 어느 때보다 강조되고 있다. 빅 데이터가 기업에 제공해 줄 가치를 이해하고 관리하는, 또 미지의 데이터 소스를 확인하고, 기업의 요구와 목표에 부응하는 최선의 테크놀로지를 선택하는 모든 과정은 CIO가 다뤄야 할 새로운 임무로 자리 잡고 있다.

*Nathaniel Rowe는 애버딘그룹에서 기업용 데이터 관리를 연구하는 애널리스트다. ciokr@idg.co.kr

원문보기: 
http://www.ciokorea.com/news/13164?page=0,1#csidx14d5637fd813d8b8db0fe4b46b956cf 



비즈니스 인텔리전스(BI)는 기업의 성장과 시장내 경쟁 우위를 확보하는 데 필수적이다. 그러나 BI 전략을 성공적으로 이끌기 위해서는 기술적 측면 외에도 신경 써야 할 것이 많다.


Credit: Getty Images Ba



실제로 기술을 적용하는 것은 BI 전략 중 간단한 쪽에 속한다. 포레스터 리서치의 수석 애널리스트이자 부대표인 보리스 이벨슨은 “더 까다로운 작업은 전략에 적합한 인력과 프로세스를 구성하는 것이다”라고 말했다. 따라서 BI 전략을 성공적으로 구현하려는 기업은 무엇보다 이 부분에 신경을 써야 한다. 또한 주도권과 권한 문제를 정리하고 지속적인 개선을 위해 BI 전략을 더 세분화 할 필요가 있다. BI 전문가가 공통으로 지목하는, 성공적인 BI 전략의 7가지 특징을 살펴보자.

1. BI 주도권을 현업 부서에 부여한다
이벨슨에 따르면, BI 전략을 IT 부서 내로만 엄격하게 한정하지 말고 현업 사용자에게 맡기는 것이 더 성공할 가능성이 크다. 예를 들면 영업 부서 내에 BI를 배치하거나 BI 오퍼레이션의 직접적인 보고를 최고 디지털 책임자(CDO), 최고 고객 책임자(CCO)에게 하는 식이다. 이벨슨은 “현업이 전적으로 BI를 주도해야 한다”라고 말했다.

초기에는 BI 기술이 무척 복잡하고 까다로워 IT가 주도하는 것이 효율적이었다. 그러나 오늘날의 BI 툴은 매우 직관적이어서 현업 사용자도 충분히 필요한 쿼리를 직접 운용할 수 있다. 특히 지금의 경영 환경은 현업 사용자가 IT 부서의 보고서를 기다릴 만큼 여유롭지 않다. 오히려 실행 가능한 정보를 실시간에 가깝게 요구한다. 이벨슨은 “이런 점 때문에 IT가 BI 주도권은 가지면 성공에 도움이 되는 것이 아니라 오히려 장애가 될 수도 있다”라고 말했다.

2. BI 사용을 모니터링하고 필요에 따라 조정한다
BI 전략의 주도권은 현업 부서에 있어야 하지만, BI 시스템의 이용을 모니터링하고 평가하는 작업에는 여전히 IT의 능동적 참여가 필요하다. 이벨슨은 “현업 부서의 주도권을 방해하기 보다는 이들의 활동을 모니터링 하고, 어떤 데이터 소스에 액세스 하는지, 어떤 툴을 어떻게 사용하고 있는지, 어느 현업 부서가 BI를 더 많이 활용하고 있는지 등을 살펴봐야 한다”라고 말했다.

이를 통해 CIO는 현업 부서와의 파트너십을 새로운 단계로 끌어올릴 수 있다. 예를 들어 CIO는 마케팅 부서가 BI 툴을 잘 쓰고 있는지 알 수 있고, 그 여부에 따라 불필요한 개입을 최소화 할 수 있다. 마찬가지로 기업 전반의 BI 애플리케이션 사용자가 급증해 성능을 끌어올려야 하고 결과적으로 BI가 추가 관리와 운영이 필요한 핵심 앱이 될 경우 CIO는 이를 즉시 파악해 대응할 수 있다.

3. 확인, 확인 또 확인
짧은 기간에 많은 BI 기능을 구현할 수 있다면 아마도 거의 모든 IT 조직이 귀를 솔깃할 것이다. 그러나 BI 전략에 관한 한 언제나 양보다 질이다. BI 컨설팅 업체 WCI 컨설팅(WCI Consulting)의 운영 담당 부대표 크리스 헤이건스는 "의심스러운 기능을 여러 개 개발하는 것보다 신뢰할 수 있는 몇 가지 기능을 제대로 구현하는 것이 훨씬 낫다”고 말했다.

이를 위해서는 쿼리에 응답하는 데 필요한 모든 데이터에 액세스하는 것을 활성화하는 강력한 프로세스가 필요하다. 또한 문제 있는 데이터가 BI 시스템에 들어오는 것을 예방해 부정확한 정보에서 인사이트를 도출하는 것을 막아야 한다. 특히 이러한 확인 프로세스는 새로운 BI 기능에 대한 요청에 빠르게 대응할 수 있을 정도로 애자일 해야 한다.

헤이건스는 "BI 툴이 순매출액 관련 보고서를 만드는 경우를 생각해보자. 만일 이 BI 툴이 세일즈 데이터 중 반품된 품목을 반영하지 않는다면 이 데이터를 분석한 결과 역시 그다지 신빙성이 없는 정보일 것이다”라고 말했다. 확인이 중요한 것은 이뿐만이 아니다. 회의론자의 비판을 사전에 차단하기 위해서도 필요하다. 그는 "한두 사람만 나서서 ‘그 데이터는 믿을 수 없다’고 말해도 보고서를 반려해야 하는 상황이 온다. 결과적으로 보고서는 휴짓조각이 되고 전체 프로젝트가 무용지물이 될 수도 있다. 이를 막으려면 확인이 중요하다”라고 말했다.

4. 뚜렷한 문제 인식이 먼저다
BI 전략에 있어서 ‘일단 만들어 두기만 하면 알아서 쓸 것’이라는 안일한 생각은 금물이다. 아직도 많은 기업이 데이터 저장소를 만들고 그 위에 BI를 구축해 놓으면 현업 사용자가 알아서 찾아와 이용할 것이라고 생각하지만 그렇지 않다는 것이다. 이벨슨은 “그보다는 ‘위에서부터 아래로’의 접근법이 더 효과적일 수 있다. 비즈니스 결과에 초점을 맞추는 접근 방식이다. ‘데이터가 어디 있지?’라는 질문에서 시작하는 대신 구체적인 비즈니스 문제를 해결하는 것부터 시작하는 방식이다”라고 말했다.

예를 들어 마케팅 부서에서 고객 이탈 문제의 원인을 고민하고 있다고 하자. 우선 어떤 수치를 측정할지 판단하고, 이를 계산하는 데 필요한 데이터에 액세스한 후 이를 마케팅 부서에서 쉽게 활용할 수 있도록 가공해 주어야 한다. 이처럼 IT 부서의 임무는 마케팅 부서의 고민에 대한 해답을 BI를 통해 제시해 주는 것이다.

이벨슨은 “이를 위해서는 우선 비즈니스 문제를 명확하게 파악하고 어떤 기준과 수치를 분석의 대상으로 삼을 것인지를 결정해야 한다. 그리고 마지막에 가서 그에 필요한 데이터를 어디서 구할 것인지를 생각하는 것이 순서이다”라고 말했다.




5. 우선 순위 정하고 개선의 여지를 남겨 둔다
성공적인 BI 전략은 확장과 개선을 모두 예측할 수 있어야 한다. 기업은 BI를 통해 무엇에 대한 통찰력을 얻고자 하는지 분명히 하고, 그들 중 어떤 것이 가장 시급하고 중요한지 결정해야 한다. 그래야만 IT 부서도 우선 순위를 정해 가장 중요한 것부터 결과를 내놓을 수 있다. 또한 BI 프로그램은 우선순위가 바뀜에 따라 함께 변화할 수 있어야 한다. 헤이건스는 “사용자와 기업 커뮤니티 내부 사람의 요구에 맞춰 BI 프로그램도 변해야 한다”라고 말했다.

마찬가지로 BI 전략에는 시스템을 발전, 개선하는 프로세스가 포함돼야 한다. 이벨슨은 반복적인 개선 방식을 추천한다. 현업 부서에서 BI 툴을 이용하며 어떤 부분이 자신의 요구에 맞고, 어떤 부분이 맞지 않는지 찾아가면서 툴도 함께 확장, 개선될 수 있어야 한다는 것이다.

6. ‘시민’ 데이터 과학자를 교육한다
가트너가 내놓은 2017년 ‘비즈니스 인텔리전스 및 애널리틱스 플랫폼을 위한 매직 쿼드런트(Magic Quadrant for Business Intelligence and Analytics Platforms)’ 보고서를 보면, 앞으로 수 년 이내로 시민 데이터 과학자의 수가 정규 데이터 과학자의 수보다 5배 가량 빠르게 증가해 나갈 것으로 보인다.

가트너의 리서치 부대표 신디 하우슨은 "오늘날 데이터 과학자에 대한 수요를 전부 충족할 만큼의 인력 공급이 충분치 않다는 것을 경영자 대부분이 알고 있다. 따라서 필요한 시민 데이터 과학자 인력을 기존의 인재 풀에서 찾아 내거나 새롭게 고용하기 위해 노력하고 있다”라고 말했다. 여기서 시민 데이터 과학자란 중간 정보(in-between information) 애널리스트를 의미한다. 업종을 이해하고 어떤 질문을 던져야 하는지 알고 있는 사람들이다. 이들의 생산성을 높일 수 있도록 사용하기 편한 소프트웨어도 필요하다.

하우슨은 소프트웨어가 개선돼 결국은 모델화 되지 않은 데이터 세트에 대한 현업 부서의 질문에 대해 현업 부서가 스스로가 답을 찾을 수 있게 될 것으로 전망한다. 그는 "이 과정에서 기업은 시민 데이터 과학자의 역할을 맡을 인재가 필요하다. 이들은 애널리틱스 기술을 갖춘, 호기심 가득한 인재들로, 의문을 던지고, 정보를 해석하는 데 능하고, 소프트웨어를 활용해 비즈니스 결과를 개선하는 데 익숙해야 한다”라고 말했다.

7. 데이터 속에서 이야기를 찾는다
데이터 전문 서비스 업체 CBIG 컨설팅(CBIG Consulting)의 대표 토드 내쉬에 따르면 데이터 속에서 이야기를 찾는 기업이 BI 전략에서 성공한다. 그는 직원이 BI 툴이 제공한 통찰력을 활용해 ‘데이터가 말하고자 하는 바’를 다른 이에게 유의미하게 설명하는 기업 사례를 들었다. 이 업체의 직원들은 BI 기술의 리포팅과 가상화 기능을 이용해 분석의 가치를 극대화하는 내러티브를 만들었다.

내쉬는 “이야기를 만들어 낼 데이터와 툴은 이미 준비가 돼 있다. 이제 사람들을 그 이야기 속에 몰입하도록 만들기만 하면 된다. 이는 단순히 그럴듯해 보이는 보고서를 만드는 것이 아니다. 다른 이들은 보지 못하는 데이터의 스토리적 측면을 빠르게 잡아내 사업에서 활용할 수 있는 통찰력을 도출해야 한다”라고 말했다.

경영자의 역할도 중요하다. 이 과정을 충분히 지원해야 한다. 예를 들어 매장 판매량 데이터를 분석하는 직원 중 (폭우나 폭풍이 몰아치는 정도가 아니어도) 사소한 날씨의 변화가 판매량에 영향을 미치는지를 알아 채는 직원이 있을 수 있다. 이들은 외부 기상 데이터를 활용해 날씨와 관련된 판매 트렌드를 분석하고 이를 통해 어떻게 하면 판매량을 최대화할 수 있는지 방안을 고민한다. 내쉬는 “데이터에서 더 유의미한 통찰력을 얻어 내기 위해 활용할 수 있는 내·외부 데이터는 매우 다양하다”라고 말했다.

또한 성공적인 BI 프로그램일수록 표준적인 주요 성과 지표(KPI, key performance indicators)를 측정하는 것 이상의 분석이 가능해야 한다. 내쉬는 “자신의 한계에 도전하는 방법은 여러 가지다. 그 중 하나는 주어진 KPI를 의심하고, 재해석해 자신에게 주어진 정보를 십분 활용하는 것이다”라고 말했다. ciokr@idg.co.kr

원문보기: 
http://www.ciokorea.com/news/35756#csidx66eb7371d7b121abc333bb80ca2ef10 



판별 분석은 두 개 이상의 모 집단에서 추출된 표본들이 지니고 있는 정보를 이용하여 이 표본들이 어느 모집단에서 추출된 것인지를 결정해 줄 수 있는 기준을 찾는 분석법을 말합니다예를 들면은행에서 부동산 담보 대출을 행하고자 할 경우 채무자가 대출금을 갚을 것인가그렇지 않을 것인가여부는 은행 입장에서는 중요한 관심사가 됩니다이 경우 과거에 대출금을 반환치 않은 사람의 정보 유형(연령소득결혼 유무 등)을 참고하여 담보 신청시 신청자의 정보 유형을 과거의 유형과 비교하여 장래 변제 가능성을 파악할 수 있습니다.

 

 

판변 분석의 기초 개념

 

 판별변수 (discriminant variable)

판별변수는 어떤 집단에 속하는지 판별하기 위한 변수로서 독립 변수중 판별력이 높은 변수를 뜻합니다판별변수를 선택하는 데 판별 기여도 외에 고려해야 할 사항은 다른 독립변수들과의 상관관계입니다상관관계가 높은 두 독립변수를 선택하는 것보다는 두 독립변수 중 하나를 판별변수로 선택하고그것과 상관관계가 적은 독립변수를 선택함으로써 효과적인 판별함수를 만들 수 있습니다.

 

 판별함수 (discriminant function)

판별함수는 판별변수들의 선형조합으로 집단의 수 1’과 독립변수의 수 중 작은 값만큼 도출할 수 있습니다판별함수의 목적은 종속변수의 집단을 정확하게 분류할 수 있는 예측력을 높이는 데 있습니다판별분석은 정준상관분석의 특별한 형태이므로 판별함수를 정준판별함수(anonical discriminant function)라고도 부릅니다.

 

판별분석이 이용되기 위해서는 각 개체는 여러 집단중에서 어느 집단에 속해 있는지 알려져 있어야 하며소속집단이 이미 알려진 경우에 대하여 변수들을 측정하고 이들 변수들을 이용하여 각 집단을 가장 잘 구분해 낼 수 있는 판별식을 만들어 분별하는 과정을 포함하게 됩니다또한판별 함수를 이용하여 각 개체들이 소속집단에 얼마나 잘 판별되는가에 대한 판별력을 측정하고새로운 대상을 어느 집단으로 분류할 것이냐를 예측하는 데 주요 목적이 있습니다.

 

 판별점수 (discriminant score)

판별점수는 어떤 대상이 어떤 집단에 속하는지 판별하기 위하여 그 대상의 판별변수들의 값을 판별함수에 대입하여 구한 값을 뜻합니다.

 

 표본의 크기

전체 표본의 크기는 독립변수의 개수보다 3(최소 2이상 되어야 합니다.

종속변수의 집단 각각의 표본의 크기 중 최소 크기가 독립변수의 개수보다 커야 합니다.

 

표본의 크기를 고려할 때에 전체 표본뿐만 아니라 종속변수의 각 집단마다 충분한 크기의 표본을 확보하여야 합니다이는 판별력을 좌우하는 것이 전체 표본의 수가 아니라 가장 적으로 집단의 표본수이기 때문입니다.

 

 

판변 분석의 단계

① 케이스가 속한 집단을 구분하는데 기여할 수 있는 독립 변수를 찾습니다.

② 집단을 구분하는 기준이 되는 독립 변수들의 선형 결합 즉 판별 함수를 도출합니다.

③ 도출된 판별 함수에 의한 분류의 정확도를 파악합니다.

④ 판별 함수를 이용하여 새로운 케이스가 속하는 집단을 예측합니다.

 

 

판별 분석의 계산 논리

판별 분석은 독립 변수의 생리학적 특성심리학적 특성사회·경제학적 특성을 바탕으로 불 확실한 의사 표명을 한 종속 변수의 의사 결정 방향이 어느 쪽으로 선택할 것인지를 분석해주는 통계 분석 기법입니다따라서 판별 변수는 주어진 독립 변수의 특성을 바탕으로 종속 변수의 변화와 판단의 방향을 예측하는 것이기 때문에 독립변수의 선별이 무엇보다도 중요합니다다음은 독립 변수의 특성을 함수 관계로 규정하여 그 함수중 어느것이 종속 변수의 변화에 영향을 미치는가를 가려주는 판별 분석의 공식입니다.

 

 

판별함수 (Discriminant function)

 

Z: 판별점수β0: 판별상수X1, X2, …, Xp: 판별변수β1, β2, …, βp판별계수

 

판별 분석에 사용되는 종속변수는 판단의 방향을 의미하는 변수이기 때문에 변수값이 제한적이거나 두개 정도여야 합니다그러나 독립변수는 성향에 관계없이 사용할 수 있습니다종속변수의 값이 두개 정도이거나 제한적인 경우 어떤 독립변수가 종속변수에 가장 큰 영향을 미칠 것인지에 대해서 분석의 도구로 사용되기도 합니다판별점수의 집단간 변동과 집단내 변동의 배율을 최대화하는 판별함수를 도출해야 합니다.

 

독립 변수가 2개인 경우의 판별 함수 ]

 

 

판별분석의 주요개념

 

 평균값

판별분석에서는 일차적으로 종속변수의 값이 정해져 있는 사례수에 대한 평균값을 계산합니다그 후 평균값이 정해진 사례수의 판별함수를 구한 후에 구체적인 성향이 나타나지 않은 종속변수의 값을 예측 판단합니다그러나 이러한 기술 통계는 단순한 추축을 위해서 사용할 뿐 어떠한 통계적 의미는 없습니다.

 

 윌크스의 람다(Wilk’s lambda)

Wilks의 람다값은 종속변수의 변수값을 기준으로 분류된 각 독립변수의 평균값이 어느 정도 차이가 나는지에 대해서 분석하는 통계값입니다. Wilks의 람다값의 공식은 다음과 같습니다.

 

Wilk’s 람다값 = 집단내 제곱 합 / 전체의 제곱 합

 

독립 변수에 대한 람다값이 1이면 종속 변수의 평균값이 동일하다는 의미이고람다값이 작으면 종속변수의 평균값 차이가 크다고 해석합니다판별 분석에서는 람다값이 크면 사례수의 성향이나 형태에 대한 추론을 정확하게 예측할 수 없으므로람다값이 작으면 판단 예측력이 높다고 해석할 수 있습니다판별분석은평균값이 차이가 많이나야 미지의 사례수 방향을 충분히 예측할 수 있기 때문입니다.

 

 고유값과 에타값

고유값(Eigenvalue)은 판별함수가 어느 정도로 설명력이 있는지에 대한 내용을 분석하는데 사용하는 통계값입니다고유값 공식은 집단간 제곱합 / 집단내 제곱합입니다고유값이 크면 판별함수의 설명력이 높고작으면 판별함수의 설명력이 약하다고 해석합니다일반적으로 고유값이 4.0이상이면 어느 정도의 예측 설명력을 가진다고 볼수 있습니다또한 판별함수가 두개 이상 도출될 때 고유값이 큰 함수가 설명력이 높습니다.

 

에타는 판별점수와 종속변수 사이의 상관관계를 나타내는 통계값입니다에타값은 0에서 1사이에 위치하고 있는데이 값이 높으면 판별함수와 종속변수 사이의 상관관계가 밀접하기 때문에 판별함수의 설명력이 높아집니다.

 

 판별함수의 종류값

판별함수의 종류에는 비 표준화된 판별함수의 계수(Unstandardized canonical discriminant function cofficients)와 표준화된 판별함수의 계수(Standardized canonical discriminant function cofficients)가 있습니다.

 

비 표준화된 판별함수의 계수는 판단이 불확실하고 유보된 사례수의 성향을 판정하는데 사용합니다또한 성향이 이미 주어진 사례수의 성향이 잘못 분류되었는지 아닌지를 판별합니다표준화된 판별함수의 계수는 복수의 독립변수 중에서 종속변수와 가장 밀접하게 관계가 있는 것이 어떤 변수인지를 분석하는데 사용합니다판별함수가 다수인 경우 Wilk’s의 람다값이나 에타값을 비교하여 현실 사회를 보다 잘 설명할 수 있는 함수를 선택하면 미지의 종속변수의 성향을 정확하게 예측할 수 있습니다.



군집 분석은 각 개체의 유사성을 측정하여 높은 대상 집단을 분류하고군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체간의 상이성을 규명하는 통계 분석 방법입니다비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 그룹을 발굴하는데 사용됩니다예를 들어 트위터 상에서 주로 사진과 카메라에 대해 이야기하는 사용자 그룹이 있을 수 있고자동차에 대해 관심 있는 사용자 그룹이 있을 수 있습니다이러한 관심사나 취미에 따른 사용자 그룹을 군집 분석을 통해 분류할 수 있습니다.

 


군집 분석의 예 ]

 

군집 분석에서 군집을 분류하는 가장 기본적인 가정은 군집 내에 속한 객체들의 특성은 동질적이고서로 다른 군집에 속한 객체들간의 특성은 서로 이질적이 되도록 각각의 객체를 분류해야 한다는 것입니다개별 군집의 특성은 각 군집에 속한 구성원의 평균값으로 나타낼 수 있으며이를 그 집단의 프로필이라고 합니다따라서 군집 분석의 알고리즘은 군집 내 구성원의 동질성과 군집 간 구성원의 이질성을 최대화하는 방법이 됩니다.

 

개별 군집의 특성 ]

 

군집 분석에 있어서 어려운 문제 중의 하나는 다음 그림에서와 같이 군집의 형태가 매우 다양하다는 점입니다우선 (a)처럼 각 군집이 구형인 경우에는 대부분의 군집 방법들이 만족할 만한 결과를 제공하지만, (b)와 같이 군집의 모양이 긴 경우 개체들 사이의 거리를 단순히 유클리드 거리로 측정하면 잘못된 결과를 얻게 됩니다개체 B C와 같은 군집에 속하는 데에도 불구하고 유클리드 거리상 A와 더 가깝다고 판정하게 됩니다또한, (c)의 경우에서는 개체 A B가 두 군집 사이의 고리 역할을 하여 군집 방법에 따라서는 하나의 군집으로 결론지을 수도 있게 됩니다.

 

 


 

 

군집 분석의 유사성 계산

군집 분석의 목적은 관찰치들의 유사성을 측정한 후에 가까운 순서대로 관찰치들을 군집화 하는 것입니다두 관찰치의 유사성 측정은 방법에 따라 거리와 유사성으로 구분할 수 있습니다.

 

거리는 값이 작을수록 두 관찰치가 서로 유사한 것을 의미한다.

유사성은 값이 클수록 두 관찰치가 서로 유사함을 의미한다.

 

 거리의 척도

두 개체 사이의 거리를 구하는 종류는 일반적으로 다음과 같습니다.

 

■ 유클리드 거리

일반적으로 군집 분석에서는 고객 혹은 분석 대상간의 유사성을 유클리디안 거리로 측정하고 있습니다이차원 공간에서 두 점간의 거리는 피타고라스 정리에 의하여 쉽게 구할 수 있으며 이렇게 구한 거리를 유클리디안 거리라고 합니다.

 


 

■ Mahalanobis 거리


 

■ Minkowski 거리

유클리디안 거리의 일반화된 경우로 p는 양의 정수로 디폴트 값은 2이다.


 

 

 유사성의 척도

두 개체의 유사성 (Similarity)

 는 일반적으로 두 개체에 대한 변수들 사이의 상관 계수를 많이 사용하며 그 식은 다음과 같다.


 

 

 

군집 분석의 종류

 

군집분석의 종류는 대상을 어떻게 분석할지에 따라서 다음과 같이 분류할 수 있습니다.

 

군집 분석의 종류 ]

 

그럼 계층적 군집 분석비 계층적 군집 분석중복 군집 분석을 하나씩 살펴보도록 하겠습니다.

 

 

 계층적 군집 분석 (Hierarchical Clustering Method)

개별 대상간의 거리에 의하여 가장 가까이에 있는 대상들로부터 시작하여 결합해 감으로써 나무 모양의 계층구조를 형성해가는 방법으로 덴드로그램을 그려줌으로써 군집이 형성되는 과정을 정확히 파악할 수 있으나 자료의 크기가 크면 분석하기가 어렵습니다.

 

■ 최단 연결법(Single Linkage Method)

최단 거리는 다음과 같이 정의합니다.


 

두 군집 U V사이의 거리  를 각 군집에 속하는 임의의 두 개체들 사이의 거리 중 최 단거리로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법입니다이러한 최단 연결법은 수리적인 면이 매우 우수하며이에 따라 컴퓨터 처리 시간이 비교적 빠릅니다또한 자료에 대한 단조 변환에 대하여 나무 구조가 불변하기 때문에 순서적 의미를 갖는 자료에 대하여 좋은 결과를 제공합니다그러나 두 군집이 몇 개의 개체들로 연결된 고리현상이 있을 경우 부 적절한 결과를 낳게 됩니다.

 

 

■ 최장 연결법(Complete Linkage Method)

최장 거리는 다음과 같이 정의합니다.


 

두 군집 U V사이의 거리  를 각 군집에 속하는 임의의 두 개체들 사이의 거리 중 최장거리로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법입니다이와 같은 최장 연결법은 앞의 최단 연결법과는 대조적인 관계가 있습니다일반적으로최단 연결법이 고립된 군집을 찾는데 유용하다면최장 연결법은 군집들의 응집성에 중점을 둔다고 하겠습니다이런 점에 대한 보완 방법으로써 중심 연결법중위수 연결법평균 연결법 등이 제안되었습니다.

 

 

■ 평균 연결법(Average Linkage Method)

크기가 각각  인 두 군집 U, V사이의 거리를각 군집에서 하나씩의 개체를 택해 연결한 모든 가능한  가지의 거리  의 평균을 다음과 같이 정의합니다.


 

두 군집 U V 사이의 거리  를 각 군집에 속하는 모든 개체들의 평균 거리로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법입니다.

 

 

■ 중심 연결법(Centroid Linkage Method)

U의 평균을  라고 표기하고 P를 두 군집 사이의 유클리드 거리와 같은 비 상사성척도라 하면 두 군집 U, V 사이의 거리는 다음과 같이 정의됩니다.


 

두 군집 U의 중심점과 군집 V의 중심점 사이의 거리를 두 군집 사이의 거리로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법입니다.

 

 

■ 중위수 연결법(Median Linkage Method)

두 군집 U V사이의 거리  를 각 군집에 속하는 임의의 두 개체들 평균을 합하여 2로 나눈 값(군집의 크기를 고려하지 않은 단순 평균)을 근간으로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법입니다.

 

 

 

 비 계층적 군집 분석 (Non-Hierarchical Clustering Method)

구하고자 하는 군집의 수를 정한 상태에서 설정된 군집의 중심에 가장 가까운 개체를 하나씩 포함해 가는 방식으로 군집을 형성해가는 방법입니다많은 자료를 빠르고 쉽게 분류할 수 있으나 군집의 수를 미리 정해 주어야하고군집을 형성하기 위한 초기값에 따라 군집 결과가 달라지는 단점이 있습니다.

 

비 계층적 군집 방법으로 가장 널리 쓰이고 있는 방법은 K-means 군집화방식입니다. K-means 군집화 방식은 순차적으로 군집화 과정이 반복되기 때문에 순차적 군집 분석이라고 합니다. K-means 군집화 방식은 계측적인 군집화의 결과에 의거하여 미리 군집의 수를 정해야 하며 군집의 중심(Cluster center)도 정해야 합니다이 방법은 군집의 수를 미리 정하고 각 개체가 어느 군집에 속하는지를 분석하는 방법으로 대량의 데이터의 군집 분석에 유용하게 이용되는 방법입니다.

 

 

■ 순차적 군집 분석법(Sequential Threshold Method)

군집의 중심이 정해지고 사전에 지정된 값의 거리 안에 있는 모든 관측 대상들은 같은 군집으로 분류됩니다한 군집이 형성되고 난 다음에 새로운 군집의 중심이 결정되면 이 중심을 기준으로 일정한 거리 안에 있는 모든 관측 대상이나 속성은 또 다른 군집으로 분류하게 됩니다이러한 과정은 모든 관측 대상이 최종적으로 군집화 될 때 까지 계속 반복 됩니다.

 

 

■ 동시 군집 분석법(Paralleled Threshold Method)

사전에 지정된 값 안에 관측 대상이나 속성이 속하는 경우나 몇 개의 군집이 동시에 결정되는 경우를 말합니다.

 

 

■ 최적할당 군집 분석법(Optimizing Partitioning Method)

사전에 주어진 군집의 수를 위한 군집 내 평균거리를 계산하는 최적화 기준에 의거하여 최초의 군집에서 다른 군집으로 다시 할당될 수 있습니다.

 

 

 

 중복 군집 분석

몇 개의 군집화 규칙을 상이하게 적용하여 군집화하는 방법으로 하나의 객체가 여러 군집에 포함 될수 있습니다.

 

 

군집 분석(Clustering analysis) vs 판별 분석(Classification analysis)

판별 분석은 소속 집단을 알고 있는 상태에서 데이터들을 이용하여 모형을 만들고이 모형을 통해서 소속 집단을 모르는 데이터 집단을 결정하는 기법이며군집 분석은 여러 집단의 데이터들이 섞여 있어서데이터의 소속 집단을 모르는 경우 유사성을 통하여 데이터의 군집을 찾는 기법입니다.

 

판별 분석과 군집 분석은 관측값을 분류한다는 점에서는 공통점을 가지나판별 분석은 관측된 자료로 모형을 만들고 새로운 자료가 들어올 때 분류를 하는 분석 방법이고군집 분석은 유사성이 높은 데이터들을 분류하여 군집을 만드는 분석 방법입니다.



데이터 마이닝은 기업의 정보 분석을 위한 비즈니스 인텔리전스(BI, Business Intelligence) 시스템을 이루는 하나의 구성 요소이며고객 관계 관리(CRM, Customer RelationShip Management)의 고객 분석을 위한 핵심 엔진으로 인식 되어 기업 내에서 그 활용도가 높아지고 있습니다데이터 마이닝은 다양한 산업 분야에서 다양한 비즈니스 영역에서 활용되고 있으며이 중 상품 구매 이력등은 트랜젝션 데이터를 기반으로 아이템 간의 연관 규칙을 찾아내는 연관성 분석은 데이터 마이닝을 소개할 때 대표적으로 언급되는 발견 위주의 데이터 마이닝(Discovery Data Mining) 기술입니다.

 

데이터 마이닝을 이야기 할 때가장 많이 인용되는 사례로 맥주와 기저귀의 예가 있습니다미국의 대형 편의점의 고객 구매 데이터에서 일회용 아기 기저귀를 사는 사람은 맥주도 같이 산다는 연관 규칙을 연관성 분석을 통하여 발견하였는데실제 고객을 조사한 결과 보통 아내가 남편에게 기저귀를 사오라고 하면 남편이 기저귀를 사면서 맥주도 같이 사간다는 것입니다이러한 연관 규칙은 맥주와 기저귀를 교차 판매하거나각 제품 판매 전략에 활용할 수 있습니다.

 

 

정장을 구매하는 고객은 넥타이와 셔츠를 구매한다.

진을 구매한 고객은 토닉과 레몬을 구매한다.

 

 

연관성 분석은 특히유통업체에서 바 코드 기술의 도입으로 개개의 세일즈 데이터를 저장하여 분석할 수 있어 그 활용도가 높습니다연관성 분석을 위한 입력 데이터는 트랜젝션 데이터로 각 레코드는 고객이 한번에 구입한 상품들로 구성됩니다각 트랜젝션에서 고객이 구입한 항목과 구입 날짜로 구성되는 이른바 장바구니 데이터(Basket data) 입니다.

 

 


장바구니 분석(MBA, Market Basket Analysis)의 예시 ]

 

연관성 분석은 장바구니 분석(MBA, Market Basket Analysis), 교차 판매상승 판매 등 활용될 수 있는 분야는 매우 다양합니다.

 

 

지지도(Support), 신뢰도(Confidence), 향상도(Lift)

연관성 분석을 수행할 때 알고리즘은 설정된 최소 지지도와 최소 신뢰도를 데이터와 함께 고려하여 이 조건을 만족하는 모든 연관 규칙을 찾아줍니다또한연관성 분석의 결과를 해석하여 유용한 연관 규칙을 파악할 때연관 규칙과 함께 각 규칙을 정의하기 위한 측정치로 지지도신뢰도 그리고 리프트(Lift)등이 있습니다.

 

 

집합 관계 ]

 

 

지지도(Support)

어떤 규칙의 지지도가 10%라면 전체 트랜젝션 중 그 규칙을 따르고 있는 트랜젝션이 10%를 차지한다는 의미이다두 품목 A B의 지지도는 전체 거래 항목 중에서 항목 A와 항목 B를 동시에 포함하는 거래의 비율을 말합니다.

 

 Support = P(AB)

품목A와 품목B를 포함하는 거래수 / 전체 거래 수

 

 

신뢰도(Confidence)

신뢰도는 항목 A의 거래중에서 항목 B가 포함된 거래의 비율을 말합니다.

 

Confidence = P(B|A) = P(AB) / P(A)

지지도(Support) / P(A)

 

 

향상도:향상도(Lift:Improvement)

AB의 연관 규칙에서 임의로(Random) B가 구매되는 경우에 비해 A와의 관계가 고려되어 구매되는 경우의 비율이다연관 규칙이 오른쪽 항목을 예측하기 위한 능력이 얼마나 향상되었는가를 표현하는 값이다.

 

Lift = P(B|A) / P(B) = P (AB) / P(A)P(B)

신뢰도 / P(B)

 

Lift

의미

1

두 푸목이 서로 독립적인 관계

과자와 후추

> 1

두 품목이 서로 양의 상관 관계

빵과 버터

< 1

두 품목이 서로 음의 상관 관계

설사약변비약

 

 

 

연관 규칙 예제

 

1. 문제

셔츠를 구매한 고객이 넥타이도 함께 구매할 연관성에 대해서 분석하시오.


 

2. 풀이

1) P(A):셔츠 구매, P(B):넥타이 구매

2) 동시 거래수(셔츠넥타이) : 2

3) 셔츠 구매 거래수 : 3

4) 넥타이 구매 거래수 : 2

5) 전체 거래수 : 4

 

개별확률

지지도

신뢰도

향상도

P(A)

P(B)

P(AB)

P(AB)/P(A)

P (AB)/P(A)P(B)

3/4

2/4

동시거래 / 전체거래

2 / 4

지지도 / P(A)

0.5 / 0.75

신뢰도 / P(B)

0.67 / 0.5

0.75

0.5

0.5

0.67

1.34

 

3. 결론

향상도가 1보다 크므로넥타이와 셔츠는 양의 관계이며동시에 구매할 가능성이 높습니다.



최근 인터넷이 활성화되면서 데이터베이스 기반이 아닌 무작위 형태의 새로운 데이터가 생성되는 경우가 많아지는 추세입니다특히전자상거래 관련 대부분의 웹사이트에는 사용자들로부터 정형화되지 않았지만 상당히 잠재적 가치를 지니고 있는 텍스트 데이터들이 엄청난 규모로 생성되고 있습니다최근기업에서 유용하고 잠재적인 정보를 발견하기 위해 많이 사용하는 데이터 마이닝 기술은 정형화된 형태의 데이터를 주대상으로 하고 있습니다.

 

그러나 대규모의 텍스트 데이터들은 구조적인 형태로 재구성하여 분석하기가 쉽지 않고대부분이 자연어로 쓰여진 문장 형태이기 때문에 함축된 정보를 추출하기가 쉽지 않습니다이러한 비 구조적인 텍스트 문서로부터 정보를 찾아 지식을 발견하는 것이 텍스트 마이닝입니다그러나텍스트마이닝은 정형화된 데이터를 위한 일반 데이터 마이닝에 비하여 정보 추출 능력이나 정확성 등 많이 떨어지는 경향이 있습니다.

 

데이터 마이닝이 구조적인 데이터를 대상으로 유용하고 잠재적인 패턴을 끌어내는 것이라고 한다면텍스트 마이닝은 자연어로 구성된 비구조적인 텍스트 안에서 패턴 또는 관계를 추출하여 지식을 발견하는 것으로 주로 텍스트의 자동 분류작업이나 새로운 지식을 생성하는 작업에 활용되고 있습니다.

 

오늘날 사용하는 대다수의 정보는 확실히 구조가 잡히지 않은 텍스트의 형태로 존재하기 때문에 자연어로 된 텍스트 문서의 자동화되고 지능적인 분석은 매우 중요합니다데이터 마이닝은 많은 기업들에서 데이터간의 관계패턴을 탐색하고 모형화하여 기업의 의사결정에 적용하기 위해 적용되며일반적인 데이터베이스와 같은 구조화된 자료에 초점이 맞춰져 있습니다따라서 데이터 마이닝 작업을 위해서는 적용될 데이터가 정확하고 표준화되어야 하며구조화가 잘 되어진 후에야 비로서 적용할 수 있을 것입니다.

 

 

데이터 마이닝의 개요

데이터 마이닝은 데이터베이스의 데이터처럼 정형화된 데이터를 대상으로 처리하기 때문에 텍스트 마이닝에 비하여 특성간의 연관성 파악이나 규칙 생성 등 매우 다양하고 강력한 알고리즘들이 많이 개발되고 있습니다특히 분류 작업의 경우 특성 벡터에 의존하는 텍스트 마이닝에 비하여 결정 트리신경망연관 규칙등 다양한 알고리즘이 지원될 수 있습니다.

 

데이터 마이닝의 이론은 실제적인 비즈니스 문제를 해결하는 솔루션으로 보다는 수학이나 통계 등으로 많은 사람들에게 알려져 왔습니다데이터 마이닝은 일반적으로 대량의 데이터로부터 과거에 알려지지 않았던 유용한 정보를 발견하는 기술로 정의될 수 있는데비즈니스 의사 결정에 마이닝의 결과를 활용할 수 있는 유용한 정보를 얻어내는 것이야 말로 성공적인 데이터 마이닝이라 할 수 있습니다.

 

데이터 마이닝이라는 용어가 등장한 것은 10년이 채 되지 않았으나실제 그 기술의 근원은 1950년대의 패턴 인식규칙 기반 추론(Rule Based Reasoning) 등의 인공지능 연구로 거슬러 올라가며주로 과학적인 적용 업무(Scientific Application)등에 사용되었습니다이후 관계형 데이터 베이스의 등장과 각 기업의 대량 데이터의 축적등이 데이터 마이닝 기술을 상업적 적용 업무(Commercial application)의 다양한 분야에 활용하게 하였습니다.

 

데이터 마이닝은 축적된 데이터에서 비즈니스에 대해서 알려지지 않은 정보를 발견하는 것입니다그런데데이터 마이닝을 이용하지 않고기본적인 통계 기술만을 이용하여 데이터베이스를 탐색하여 새로운 사실을 발견할 수도 있습니다실제로 비즈니스에 대하여 가설을 세우고그 가설을 증명하기 위한 분석 작업을 합니다.

 

 

데이터 마이닝 기술

일반적으로 데이터 마이닝 기술은 발견 마이닝(Discovery mining)과 예측 마이닝(Predictive mining)  2가지로 제공됩니다.

 

Discovery mining은 새로 발견될 패턴에 대한 사전 지식 없이 데이터 내에 숨겨진 패턴을 발견하는 기술입니다. Discovery mining은 다시3가지로 분류할 수 있습니다.

 

Clustering

클러스터링은 주어진 데이터를 속성이 유사한 그룹으로 나누는 기능을 갖습니다클러스터링의 목적은 이러한 유사 속성 그룹의 특성을 파악하고자 합니다.

 

Link analysis

아이템들간의 관계를 트랜잭션 데이터베이스에서 탐지하는 기능을 갖습니다.

 

Frequeny analysis

순서화된 데이터에 대한 분석과 관련된 기능을 갖습니다트렌잭션 데이터 또는 time sequence 데이터로 유사한 구조 또는subsequence를 탐지하고자 합니다.

 

Predictive mining은 과거 데이터 세트에서 변수간의 관계를 발견하는 기술입니다이 기술은 알려지지 않은 속성을 다른 속성들의 값을 기반으로 예측할 수 있는 모델을 생성합니다과거 데이터가 모델 생성시 사용되고 (훈련모드), 모델 생성시 사용되지 않았던 과거 데이터를 사용하여 모델을 테스트하고 (테스트 모드), 새로운 데이터를 사용하여 미래를 예측(적용모드합니다. Predictive mining은 다음과 같은 기법이 사용될 수 있습니다.

 

Classification

분류하고자 하는 데이터 필드를 포함하는 과거 데이터에서 모델을 생성합니다의사결정 트리가 대표적인 예이고고객 스코어링등에 사용됩니다적용모드에서 모델은 새로운 데이터에 적용되어 각 레코드별로 분류하고자 하는 데이터 필드(Classifier)에 값이 할당됩니다.

 

Value Prediction

예측하고자 하는 필드를 포함하는 과거 데이터에서 모델을 생성합니다각 레코드에 과거 데이터에 기반하여 가장 유사한 값을 예측하여 할당합니다.

 

 

데이터 마이닝의 중요 사항

데이터 마이닝의 가장 중요한 사항은 데이터를 수집하고 가공하는 이유가 무엇인지 이를 통해서 원하는 결과를 얻기 위하여 어떤 기법을 써야하는지에 대한 이해와 선택입니다데이터 분석은 지하에 묻힌 광물을 찾아낸다는 뜻을 가진 마이닝(mining)이란 용어로 부르게 된 것은 데이터에서 정보를 추출하는 과정이 탄광에서 석탄을 캐거나 대륙붕에서 원유를 채굴하는 작업처럼 숨겨진 가치를 찾아낸다는 특징을 가졌기 때문입니다.

 

데이터의 형태와 범위가 다양해지고 그 크기가 방대해지는 빅데이터의 출현으로 데이터 마이닝의 중요성은 한층 부각되고 있습니다특히 웹에서 엄청나게 빠른 속도로 생성되는 웹 페이지(web page) 콘텐츠와 웹 로그(web log), 소셜네트워크서비스의 텍스트 정보와 영상과 같은 비정형 데이터(Unstructured data)를 분석하기 위한 다양한 방법론이 등장해 데이터 마이닝의 포괄 범위는 확장되고 있습니다.

 

 

통계학과 데이터 마이닝의 유사점

데이터에서 정보를 찾아낸다는 관점에서 보면 데이터 마이닝은 통계학과 매우 비슷합니다데이터를 탐색하고 분석하는 이론을 개발하는 학문 분야가 통계학이기 때문입니다데이터 마이닝에서 주로 사용하고 있는 방법론인 로지스틱 회귀분석(logistic regression), 주성분 분석(principal analysis), 판별 분석(discriminant analysis), 군집 분석(clustering analysis) 등은 통계학에서 사용되고 있는 분석 방법론입니다.

 

 

통계학과 데이터 마이닝의 차이점

통계학과 데이터 마이닝의 차이를 살펴보면 통계학은 비교적 크지 않는 실험데이터를 대상으로 하는데 반해 데이터 마이닝은 비 계획적으로 축적된 대용량의 데이터를 대상으로 합니다통계학이 추정(estimation)과 검정(testing)이라는 이론을 중시하는 특징을 가졌다면 데이터 마이닝은 이해하기 쉬운 예측모형의 도출에 주목합니다즉 데이터 마이닝은 기업활동 과정에서 자연스럽게 축적된 대량의 데이터를 분석해 기업 경영에 필요한 가치 있는 정보를 추출하기 위해서 사용됩니다이러한 이유로 데이터 마이닝을 규모속도그리고 단순성의 통계학(statistics at scale, speed, and simplicity)”이라 부릅니다.

 

 

데이터 마이닝과 KDD(Knowledge Discovery in Database)

데이터 마이닝과 관련된 용어로 KDD가 있습니다. KDD는 데이터로부터 유용한 지식을 찾아내는 과정을 분석에 필요한 데이터를 추출(Extraction)해서사전처리(Preprocessing)와 변환과정(Transformation)을 거쳐 분석(Data Mining)하고 결과를 해석하는 과정이라 말할 수 있습니다데이터 마이닝은 데이터 분석 과정의 핵심요소이며분석을 위한 데이터를 만드는 전 처리 과정이나 결과를 해석 평가하는 것은 넓은 의미로는 데이터 분석에 해당됩니다이런 관점에서 데이터 마이닝은 KDD의 구성요소라기보다는 KDD의 전 과정을 포괄하는 개념입니다.

 

[ KDD 구성도]

 

 

데이터 마이닝 분석 과정

데이터 마이닝은 기업 경영 활동 과정에서 발생하는 데이터를 분석하기 위한 목적으로 개발되었기 때문에 다양한 산업 분야에 공통적으로 적용되는 표준화 처리 과정이 제시되었습니다데이터 마이닝 표준 처리 과정(CRISP-DM, Cross Industry Standard Process for Data Mining)은 비즈니스 이해(Business Understanding), 데이터 이해(Data Understanding), 데이터 준비(Data Preparation), 모형(Modeling), 평가(Evaluation), 적용(Deployment) 6단계로 구성되어 있습니다.

 

데이터 마이닝 표준 처리 과정 (CRISP-DM) ]

 

 

데이터 마이닝은 학제적(interdisciplinary)인 특징을 가집니다기존의 통계적 분석방법론과 함께 기계학습(machine learning), 인공지능(artificial intelligence), 컴퓨터 과학(computer science) 등을 결합해 사용합니다통계적인 방법론뿐 아니라 기계학습신경망분석(neural network)등도 데이터로부터 정보를 추출하기 위한 다양한 접근방법 중 하나로 활용되고 있습니다기계학습 기법은 대량의 데이터를 강력한 계산능력을 활용해 빠르게 분석합니다.

 

 

데이터 마이닝은 전문적인 소프트웨어 사용이 중요하다

데이터 마이닝은 대용량 데이터를 활용해 다양한 분석방법론을 적용하기 때문에 전문 소프트웨어 사용이 필수적입니다데이터 마이닝 소프트웨어는 데이터베이스 공급업체가 제공하는 제품군과 통계분석용 전문 소프트웨어로 구분할 수 있습니다데이터베이스 공급업체가 제공하는 데이터 마이닝 소프트웨어로는 IBM Intelligent Miner, MS SQL Server 2005, 오라클의 Data Mining, 테라데이터의 Warehouse Miner가 있습니다.

 

데이터 마이닝 분석용 소프트웨어로는 SAS Enterprise Miner, IBM SPSS Modeler( SPSS Clementine)가 있습니다최근 주목받고 있는 R은 오픈소스 형태로 무료로 사용할 수 있는 소프트웨어입니다그러나 사용자 친화적으로 설계되어 있지 않기 때문에 일반인이 이용하기에는 어려움이 많습니다.

 

 

데이터 마이닝 활용분야

데이터 마이닝은 다양한 분야에서 활용됩니다천체 관측 사진에서 행성과 성운을 식별하는 패턴인식(pattern recognition) 기법은 방위 산업과 의료 진단 분야에서 활용하고 있습니다데이터 마이닝 활용이 가장 활발한 곳은 기업입니다널리 알려진 사례로는 장바구니 분석(Market Basket Analysis)이 있습니다할인점의 구매 데이터를 분석한 결과 아기용 기저귀와 맥주가 함께 팔리고 있다는 사실을 발견해 할인 행사나 매장의 상품 배치에 활용한 사례입니다.

 

반도체나 자동차소비재 등 제조업에서는 생산 공정 단계에서 발생하는 데이터를 분석해 불량품이 발생하는 원인을 규명하고 예방하는 품질 관리(Quality Control)에 활용합니다금융 분야에서는 고객의 신용 등급에 따라 대출 규모와 이자 등을 결정하는 신용 점수 (Credit Score) 산정에 데이터 마이닝이 활용됩니다특이한 거래 행위에서 부정 행위를 적발(fraud detection)하는 분야에도 활용됩니다잃어버린 신용카드의 부정 이용보험회사의 허위.과다 청구를 예방하기 위해 사용될 뿐 아니라 국민연금이나 의료보험의 부당 청구와 같은 영역에도 활용하고 있습니다.

 

데이터 마이닝의 적용 분야 (출처: IBM) ]

 

 

고객관계관리(CRM, Customer Relationship Management)

데이터 마이닝은 고객관계관리(CRM) 개념과 밀접한 관련을 맺고 있습니다고객관계관리는 기업이 소비자에게 상품과 서비스를 판매하는 과정에서 발생한 데이터가 중요한 정보로 활용될 수 있다는 생각이 확산되면서 등장했습니다고객관계관리는 기존의 데이터베이스 마케팅(Database Marketing) 개념에서 한 걸음 더 나아가 생산자 중심의 기업 활동을 소비자 중심으로 바꾸는 패러다임의 전환을 의미합니다.

 

고객의 행동을 파악하기 위해서는 데이터 관리와 분석이 필수적입니다이를 위해 데이터를 효과적으로 수집하고 분석하는 정보기술(IT, Information Technology)에 주목하게 됩니다데이터웨어하우스(DW, Data Warehouse)는 기업이 보유하는 대규모 데이터를 효과적으로 저장하고 관리할 수 있게 지원하는 시스템이다데이터 마이닝을 활용한 고객 데이터 분석도 이러한 효과적인 데이터 관리시스템이 지원했기 때문에 가능한 일이었습니다.

 

데이터의 양이 폭증하고 비정형 데이터가 중요한 의미를 지니는 빅데이터 환경에서 기존의 정보기술이나 분석 방법론은 새로운 전기를 맞고 있습니다그러나 소비자의 관점에서 기업 활동을 한다는 고객관계관리의 기본 사상은 변하지 않고 더욱 강조될 것으로 보입니다.

 

 

데이터 마이닝의 사례

유통업자로서 다음과 같은 가설을 세운다면, “도심에 거주하는 고객 군이 상점에 방문 횟수는 작고 1회 구매 금액은 매우 크다.” 이 가설을 증명하기 위하여 데이터베이스내에 관련된 정보(상점지역매출액고객정보등)를 통합하여 쿼리합니다반대로 고객이 어떤 행동을 나타낼지 모르는 상태에서 고객이 거주하는 지역과 고객의 소비패턴과 어떤 관계가 있는가라는 질문에 답하려면데이터 마이닝이 그 역할을 담당할 수 있습니다.

 

사용자 대신 데이터 마이닝이 가설을 세우고 이러한 질문에 답을 하게 되는데데이터 마이닝의 결과로 다음과 같은 사실을 발견할 수 있습니다. “특정 지역에 거주하는 고객 중 소수의 수익성이 매우 좋은 고객군이 주말에 구매 금액이 매우 크다.” 다음 그림에서 보는 바와 같이 데이터 마이닝은 다른 분석 기법(쿼리다차원 분석등)과 차별화 됩니다.

 

표준 vs. 데이터 마이닝 접근법 (출처: IBM) ]

 

+ Recent posts