군집 분석 (Clustering analysis)

2017. 8. 4. 08:25

군집 분석은 각 개체의 유사성을 측정하여 높은 대상 집단을 분류하고, 군집에 속한 개체들의 유사성과 서로 다른 군집에 속한 개체간의 상이성을 규명하는 통계 분석 방법입니다. 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 그룹을 발굴하는데 사용됩니다. 예를 들어 트위터 상에서 주로 사진과 카메라에 대해 이야기하는 사용자 그룹이 있을 수 있고, 자동차에 대해 관심 있는 사용자 그룹이 있을 수 있습니다. 이러한 관심사나 취미에 따른 사용자 그룹을 군집 분석을 통해 분류할 수 있습니다.

[ 군집 분석의 예 ]

군집 분석에서 군집을 분류하는 가장 기본적인 가정은 군집 내에 속한 객체들의 특성은 동질적이고, 서로 다른 군집에 속한 객체들간의 특성은 서로 이질적이 되도록 각각의 객체를 분류해야 한다는 것입니다. 개별 군집의 특성은 각 군집에 속한 구성원의 평균값으로 나타낼 수 있으며, 이를 그 집단의 프로필이라고 합니다. 따라서 군집 분석의 알고리즘은 군집 내 구성원의 동질성과 군집 간 구성원의 이질성을 최대화하는 방법이 됩니다.

[ 개별 군집의 특성 ]

군집 분석에 있어서 어려운 문제 중의 하나는 다음 그림에서와 같이 군집의 형태가 매우 다양하다는 점입니다. 우선 (a)처럼 각 군집이 구형인 경우에는 대부분의 군집 방법들이 만족할 만한 결과를 제공하지만, (b)와 같이 군집의 모양이 긴 경우 개체들 사이의 거리를 단순히 유클리드 거리로 측정하면 잘못된 결과를 얻게 됩니다. 즉, 개체 B는 C와 같은 군집에 속하는 데에도 불구하고 유클리드 거리상 A와 더 가깝다고 판정하게 됩니다. 또한, (c)의 경우에서는 개체 A와 B가 두 군집 사이의 고리 역할을 하여 군집 방법에 따라서는 하나의 군집으로 결론지을 수도 있게 됩니다.

군집 분석의 유사성 계산

군집 분석의 목적은 관찰치들의 유사성을 측정한 후에 가까운 순서대로 관찰치들을 군집화 하는 것입니다. 두 관찰치의 유사성 측정은 방법에 따라 거리와 유사성으로 구분할 수 있습니다.

거리는 값이 작을수록 두 관찰치가 서로 유사한 것을 의미한다.

유사성은 값이 클수록 두 관찰치가 서로 유사함을 의미한다.

① 거리의 척도

두 개체 사이의 거리를 구하는 종류는 일반적으로 다음과 같습니다.

■ 유클리드 거리

일반적으로 군집 분석에서는 고객 혹은 분석 대상간의 유사성을 유클리디안 거리로 측정하고 있습니다. 이차원 공간에서 두 점간의 거리는 피타고라스 정리에 의하여 쉽게 구할 수 있으며 이렇게 구한 거리를 유클리디안 거리라고 합니다.

■ Mahalanobis 거리

■ Minkowski 거리

유클리디안 거리의 일반화된 경우로 p는 양의 정수로 디폴트 값은 2이다.

② 유사성의 척도

두 개체의 유사성 (Similarity)

는 일반적으로 두 개체에 대한 변수들 사이의 상관 계수를 많이 사용하며 그 식은 다음과 같다.

군집 분석의 종류

군집분석의 종류는 대상을 어떻게 분석할지에 따라서 다음과 같이 분류할 수 있습니다.

[ 군집 분석의 종류 ]

그럼 계층적 군집 분석, 비 계층적 군집 분석, 중복 군집 분석을 하나씩 살펴보도록 하겠습니다.

① 계층적 군집 분석 (Hierarchical Clustering Method)

개별 대상간의 거리에 의하여 가장 가까이에 있는 대상들로부터 시작하여 결합해 감으로써 나무 모양의 계층구조를 형성해가는 방법으로 덴드로그램을 그려줌으로써 군집이 형성되는 과정을 정확히 파악할 수 있으나 자료의 크기가 크면 분석하기가 어렵습니다.

■ 최단 연결법(Single Linkage Method)

최단 거리는 다음과 같이 정의합니다.

두 군집 U와 V사이의 거리

를 각 군집에 속하는 임의의 두 개체들 사이의 거리 중 최 단거리로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법입니다. 이러한 최단 연결법은 수리적인 면이 매우 우수하며, 이에 따라 컴퓨터 처리 시간이 비교적 빠릅니다. 또한 자료에 대한 단조 변환에 대하여 나무 구조가 불변하기 때문에 순서적 의미를 갖는 자료에 대하여 좋은 결과를 제공합니다. 그러나 두 군집이 몇 개의 개체들로 연결된 ‘고리현상’이 있을 경우 부 적절한 결과를 낳게 됩니다.

■ 최장 연결법(Complete Linkage Method)

최장 거리는 다음과 같이 정의합니다.

두 군집 U와 V사이의 거리 를 각 군집에 속하는 임의의 두 개체들 사이의 거리 중 최장거리로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법입니다. 이와 같은 최장 연결법은 앞의 최단 연결법과는 대조적인 관계가 있습니다. 일반적으로, 최단 연결법이 고립된 군집을 찾는데 유용하다면, 최장 연결법은 군집들의 응집성에 중점을 둔다고 하겠습니다. 이런 점에 대한 보완 방법으로써 중심 연결법, 중위수 연결법, 평균 연결법 등이 제안되었습니다.

■ 평균 연결법(Average Linkage Method)

크기가 각각

인 두 군집 U, V사이의 거리를, 각 군집에서 하나씩의 개체를 택해 연결한 모든 가능한

가지의 거리

의 평균을 다음과 같이 정의합니다.

두 군집 U와 V 사이의 거리

를 각 군집에 속하는 모든 개체들의 평균 거리로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법입니다.

■ 중심 연결법(Centroid Linkage Method)

U의 평균을

라고 표기하고 P를 두 군집 사이의 유클리드 거리와 같은 비 상사성척도라 하면 두 군집 U, V 사이의 거리는 다음과 같이 정의됩니다.

두 군집 U의 중심점과 군집 V의 중심점 사이의 거리를 두 군집 사이의 거리로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법입니다.

■ 중위수 연결법(Median Linkage Method)

두 군집 U와 V사이의 거리

를 각 군집에 속하는 임의의 두 개체들 평균을 합하여 2로 나눈 값(군집의 크기를 고려하지 않은 단순 평균)을 근간으로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법입니다.

② 비 계층적 군집 분석 (Non-Hierarchical Clustering Method)

구하고자 하는 군집의 수를 정한 상태에서 설정된 군집의 중심에 가장 가까운 개체를 하나씩 포함해 가는 방식으로 군집을 형성해가는 방법입니다. 많은 자료를 빠르고 쉽게 분류할 수 있으나 군집의 수를 미리 정해 주어야하고, 군집을 형성하기 위한 초기값에 따라 군집 결과가 달라지는 단점이 있습니다.

비 계층적 군집 방법으로 가장 널리 쓰이고 있는 방법은 K-means 군집화방식입니다. K-means 군집화 방식은 순차적으로 군집화 과정이 반복되기 때문에 순차적 군집 분석이라고 합니다. K-means 군집화 방식은 계측적인 군집화의 결과에 의거하여 미리 군집의 수를 정해야 하며 군집의 중심(Cluster center)도 정해야 합니다. 이 방법은 군집의 수를 미리 정하고 각 개체가 어느 군집에 속하는지를 분석하는 방법으로 대량의 데이터의 군집 분석에 유용하게 이용되는 방법입니다.

■ 순차적 군집 분석법(Sequential Threshold Method)

군집의 중심이 정해지고 사전에 지정된 값의 거리 안에 있는 모든 관측 대상들은 같은 군집으로 분류됩니다. 한 군집이 형성되고 난 다음에 새로운 군집의 중심이 결정되면 이 중심을 기준으로 일정한 거리 안에 있는 모든 관측 대상이나 속성은 또 다른 군집으로 분류하게 됩니다. 이러한 과정은 모든 관측 대상이 최종적으로 군집화 될 때 까지 계속 반복 됩니다.

■ 동시 군집 분석법(Paralleled Threshold Method)

사전에 지정된 값 안에 관측 대상이나 속성이 속하는 경우나 몇 개의 군집이 동시에 결정되는 경우를 말합니다.

■ 최적할당 군집 분석법(Optimizing Partitioning Method)

사전에 주어진 군집의 수를 위한 군집 내 평균거리를 계산하는 최적화 기준에 의거하여 최초의 군집에서 다른 군집으로 다시 할당될 수 있습니다.

③ 중복 군집 분석

몇 개의 군집화 규칙을 상이하게 적용하여 군집화하는 방법으로 하나의 객체가 여러 군집에 포함 될수 있습니다.

군집 분석(Clustering analysis) vs 판별 분석(Classification analysis)

판별 분석은 소속 집단을 알고 있는 상태에서 데이터들을 이용하여 모형을 만들고, 이 모형을 통해서 소속 집단을 모르는 데이터 집단을 결정하는 기법이며, 군집 분석은 여러 집단의 데이터들이 섞여 있어서, 데이터의 소속 집단을 모르는 경우 유사성을 통하여 데이터의 군집을 찾는 기법입니다.

판별 분석과 군집 분석은 관측값을 분류한다는 점에서는 공통점을 가지나, 판별 분석은 관측된 자료로 모형을 만들고 새로운 자료가 들어올 때 분류를 하는 분석 방법이고, 군집 분석은 유사성이 높은 데이터들을 분류하여 군집을 만드는 분석 방법입니다.

'빅데이터 > BI' 카테고리의 다른 글

빅 데이터에 입문한 기업들에게 필요한 것은? 'BI와 BA' (0)	2017.10.02
성공하는 BI 전략의 7가지 특징 (0)	2017.10.02
판별 분석(Discriminant Analysis) (0)	2017.08.04
연관성 분석 (0)	2017.08.04
데이터 마이닝의 개요 (0)	2017.08.04

류프리

군집 분석 (Clustering analysis)

'빅데이터 > BI' 카테고리의 다른 글

+ Recent posts

티스토리툴바