판별 분석(Discriminant Analysis)

2017. 8. 4. 08:25

판별 분석은 두 개 이상의 모 집단에서 추출된 표본들이 지니고 있는 정보를 이용하여 이 표본들이 어느 모집단에서 추출된 것인지를 결정해 줄 수 있는 기준을 찾는 분석법을 말합니다. 예를 들면, 은행에서 부동산 담보 대출을 행하고자 할 경우 채무자가 대출금을 갚을 것인가? 그렇지 않을 것인가? 여부는 은행 입장에서는 중요한 관심사가 됩니다. 이 경우 과거에 대출금을 반환치 않은 사람의 정보 유형(연령, 소득, 결혼 유무 등)을 참고하여 담보 신청시 신청자의 정보 유형을 과거의 유형과 비교하여 장래 변제 가능성을 파악할 수 있습니다.

판변 분석의 기초 개념

① 판별변수 (discriminant variable)

판별변수는 어떤 집단에 속하는지 판별하기 위한 변수로서 독립 변수중 판별력이 높은 변수를 뜻합니다. 판별변수를 선택하는 데 판별 기여도 외에 고려해야 할 사항은 다른 독립변수들과의 상관관계입니다. 상관관계가 높은 두 독립변수를 선택하는 것보다는 두 독립변수 중 하나를 판별변수로 선택하고, 그것과 상관관계가 적은 독립변수를 선택함으로써 효과적인 판별함수를 만들 수 있습니다.

② 판별함수 (discriminant function)

판별함수는 판별변수들의 선형조합으로 ‘집단의 수 1’과 독립변수의 수 중 작은 값만큼 도출할 수 있습니다. 판별함수의 목적은 종속변수의 집단을 정확하게 분류할 수 있는 예측력을 높이는 데 있습니다. 판별분석은 정준상관분석의 특별한 형태이므로 판별함수를 정준판별함수(anonical discriminant function)라고도 부릅니다.

판별분석이 이용되기 위해서는 각 개체는 여러 집단중에서 어느 집단에 속해 있는지 알려져 있어야 하며, 소속집단이 이미 알려진 경우에 대하여 변수들을 측정하고 이들 변수들을 이용하여 각 집단을 가장 잘 구분해 낼 수 있는 판별식을 만들어 분별하는 과정을 포함하게 됩니다. 또한, 판별 함수를 이용하여 각 개체들이 소속집단에 얼마나 잘 판별되는가에 대한 판별력을 측정하고, 새로운 대상을 어느 집단으로 분류할 것이냐를 예측하는 데 주요 목적이 있습니다.

③ 판별점수 (discriminant score)

판별점수는 어떤 대상이 어떤 집단에 속하는지 판별하기 위하여 그 대상의 판별변수들의 값을 판별함수에 대입하여 구한 값을 뜻합니다.

④ 표본의 크기

전체 표본의 크기는 독립변수의 개수보다 3배(최소 2배) 이상 되어야 합니다.

종속변수의 집단 각각의 표본의 크기 중 최소 크기가 독립변수의 개수보다 커야 합니다.

표본의 크기를 고려할 때에 전체 표본뿐만 아니라 종속변수의 각 집단마다 충분한 크기의 표본을 확보하여야 합니다. 이는 판별력을 좌우하는 것이 전체 표본의 수가 아니라 가장 적으로 집단의 표본수이기 때문입니다.

판변 분석의 단계

① 케이스가 속한 집단을 구분하는데 기여할 수 있는 독립 변수를 찾습니다.

② 집단을 구분하는 기준이 되는 독립 변수들의 선형 결합 즉 판별 함수를 도출합니다.

③ 도출된 판별 함수에 의한 분류의 정확도를 파악합니다.

④ 판별 함수를 이용하여 새로운 케이스가 속하는 집단을 예측합니다.

판별 분석의 계산 논리

판별 분석은 독립 변수의 생리학적 특성, 심리학적 특성, 사회·경제학적 특성을 바탕으로 불 확실한 의사 표명을 한 종속 변수의 의사 결정 방향이 어느 쪽으로 선택할 것인지를 분석해주는 통계 분석 기법입니다. 따라서 판별 변수는 주어진 독립 변수의 특성을 바탕으로 종속 변수의 변화와 판단의 방향을 예측하는 것이기 때문에 독립변수의 선별이 무엇보다도 중요합니다. 다음은 독립 변수의 특성을 함수 관계로 규정하여 그 함수중 어느것이 종속 변수의 변화에 영향을 미치는가를 가려주는 판별 분석의 공식입니다.

판별함수 (Discriminant function)

Z: 판별점수, β0: 판별상수, X1, X2, …, Xp: 판별변수, β1, β2, …, βp: 판별계수

판별 분석에 사용되는 종속변수는 판단의 방향을 의미하는 변수이기 때문에 변수값이 제한적이거나 두개 정도여야 합니다. 그러나 독립변수는 성향에 관계없이 사용할 수 있습니다. 종속변수의 값이 두개 정도이거나 제한적인 경우 어떤 독립변수가 종속변수에 가장 큰 영향을 미칠 것인지에 대해서 분석의 도구로 사용되기도 합니다. 판별점수의 집단간 변동과 집단내 변동의 배율을 최대화하는 판별함수를 도출해야 합니다.

[ 독립 변수가 2개인 경우의 판별 함수 ]

판별분석의 주요개념

① 평균값

판별분석에서는 일차적으로 종속변수의 값이 정해져 있는 사례수에 대한 평균값을 계산합니다. 그 후 평균값이 정해진 사례수의 판별함수를 구한 후에 구체적인 성향이 나타나지 않은 종속변수의 값을 예측 판단합니다. 그러나 이러한 기술 통계는 단순한 추축을 위해서 사용할 뿐 어떠한 통계적 의미는 없습니다.

② 윌크스의 람다(Wilk’s lambda)

Wilks의 람다값은 종속변수의 변수값을 기준으로 분류된 각 독립변수의 평균값이 어느 정도 차이가 나는지에 대해서 분석하는 통계값입니다. Wilks의 람다값의 공식은 다음과 같습니다.

Wilk’s 람다값 = 집단내 제곱 합 / 전체의 제곱 합

독립 변수에 대한 람다값이 1이면 종속 변수의 평균값이 동일하다는 의미이고, 람다값이 작으면 종속변수의 평균값 차이가 크다고 해석합니다. 판별 분석에서는 람다값이 크면 사례수의 성향이나 형태에 대한 추론을 정확하게 예측할 수 없으므로, 람다값이 작으면 판단 예측력이 높다고 해석할 수 있습니다. 판별분석은평균값이 차이가 많이나야 미지의 사례수 방향을 충분히 예측할 수 있기 때문입니다.

③ 고유값과 에타값

고유값(Eigenvalue)은 판별함수가 어느 정도로 설명력이 있는지에 대한 내용을 분석하는데 사용하는 통계값입니다. 고유값 공식은 집단간 제곱합 / 집단내 제곱합입니다. 고유값이 크면 판별함수의 설명력이 높고, 작으면 판별함수의 설명력이 약하다고 해석합니다. 일반적으로 고유값이 4.0이상이면 어느 정도의 예측 설명력을 가진다고 볼수 있습니다. 또한 판별함수가 두개 이상 도출될 때 고유값이 큰 함수가 설명력이 높습니다.

에타는 판별점수와 종속변수 사이의 상관관계를 나타내는 통계값입니다. 에타값은 0에서 1사이에 위치하고 있는데, 이 값이 높으면 판별함수와 종속변수 사이의 상관관계가 밀접하기 때문에 판별함수의 설명력이 높아집니다.

④ 판별함수의 종류값

판별함수의 종류에는 비 표준화된 판별함수의 계수(Unstandardized canonical discriminant function cofficients)와 표준화된 판별함수의 계수(Standardized canonical discriminant function cofficients)가 있습니다.

비 표준화된 판별함수의 계수는 판단이 불확실하고 유보된 사례수의 성향을 판정하는데 사용합니다. 또한 성향이 이미 주어진 사례수의 성향이 잘못 분류되었는지 아닌지를 판별합니다. 표준화된 판별함수의 계수는 복수의 독립변수 중에서 종속변수와 가장 밀접하게 관계가 있는 것이 어떤 변수인지를 분석하는데 사용합니다. 판별함수가 다수인 경우 Wilk’s의 람다값이나 에타값을 비교하여 현실 사회를 보다 잘 설명할 수 있는 함수를 선택하면 미지의 종속변수의 성향을 정확하게 예측할 수 있습니다.

'빅데이터 > BI' 카테고리의 다른 글

빅 데이터에 입문한 기업들에게 필요한 것은? 'BI와 BA' (0)	2017.10.02
성공하는 BI 전략의 7가지 특징 (0)	2017.10.02
군집 분석 (Clustering analysis) (0)	2017.08.04
연관성 분석 (0)	2017.08.04
데이터 마이닝의 개요 (0)	2017.08.04

류프리

판별 분석(Discriminant Analysis)

'빅데이터 > BI' 카테고리의 다른 글

+ Recent posts

티스토리툴바