제1장. Apriori 원리

제1절. 데이터 마이닝(Data Mining)
제1항. 정의
대용량 데이터 집합 (Data warehouse, web log)에서 유용하고 가치있는 새로운 규칙이나 패턴을 도출하기 위한 자동화된 지식 발견 과정

제2항. 기법 
일. 연관(Association)
하나. 대용량의 트랜잭션 데이터로부터 “X이면 Y이다” 형식의 연관 관계를 발견하는 기법
둘. 지지도(Support)
셋. 신뢰도(Confidence)
넷. Apriori 알고리즘 사용
 
제2절. Apriori 이론
제1항. Apriori 이론이란?
연관규칙(Association rule)의 대표적인 형태로써데이터들에 대한 발생빈도(빈발, frequent) 를 기반으로 각 데이터 간의 연관관계를 밝히기 위한 방법을 말하며장바구니 분석을 예로 들수 있다.
 

위의 그림은 (A,B)가 발생하고 나서 그와 연관된 트랜잭션이 일어날 수 있는 상태를 표시한 트리이다이때 (A,B)가 발생할 확률이 적었다면 (A,B)와 연관된 다른 트랜잭션들도 발생 확률이 적음을 예측할 수 있다.
 
제2항. 트랜잭션(transaction) 이란?
대형마트에 방문하여 물건을 구입하는 손님들중 손님 한명이 산 물품을 트랜잭션(transaction) 이라고 한다대형마트는 데이터베이스를 구축하고 있으며수많은 트랜잭션들을 분석하여 의미있는 패턴을 찾아낼 수 있다.
 
제3항. Apriori 연관규칙
일. 손님들의 트랜잭션들 중에서 기저귀와 맥주와의 연관관계에 대한 규칙을 발견하고자 한다.
이. 아래에 주어진 트랜잭션을 보고빈발 항목 집합(large itemsets)과 비빈발 항목 집합(small itemsets)을 찾기 위해서최소 지지도(Minimum support) 50%라고 경계값을 정하여 기준점을 삼는다.

Transaction id
items
1
기저귀버터맥주
2
기저귀맥주
3
기저귀
4
땅콩사이다

 
삼. 아이템들의 지지도를 구한다.

 itemsets
support
기저귀
3/4 = 75%
버터
1/4 = 25%
맥주
2/4 = 50%

1/4 = 25%

1/4 = 25%
사이다
1/4 = 25%

 
사. 기저귀와 맥주를 이용해 최종 빈발 항목집합을 구하면 다음과 같다더 이상 후보 집합을 구할 수 없으므로 {기저귀맥주가 최종 빈발 항목집합이 된다이를 이용해서 연관규칙을 추출하면 다음과 같다.

itemsets
support
Confidence
기저귀  맥주
2/4 = 50%
2/3 = 66.7%
맥주  기저귀
2/4 = 50%
2/2 = 100%

 
제4항. Apriori 이론의 중요법칙
일. 최소 지지도(Minimum support) 경계값을 정한다.

이. Database에서 후보 항목집합(Candidate Itemset)을 생성한다.

삼. 후보 항목집합(Candidate Itemset)에서 최소 지지도(Minimum support) 경계값을 넘는 빈발 항목 집합(Large Itemset)을 찾아낸다.

사. 이 가정을 반복하여 최종 빈발항목집합을 생성해낸다.
 

[감리사-2015-55] 연관규칙 탐사와 Apriori 원리에 관련된 설명 중 잘못된 것은?
 
1. 지지도란 해당 항목집합을 포함하는 트랜잭션의 비율을 말한다.
2. 항목집합 {A, B}가 빈발하지 않다면 항목집합 {A, B, C}도 빈발하지 않다.
3. 항목집합 {A, B}의 지지도는 항목집합 {A, B, C}의 지지도 보다 크거나 같다.
4. 규칙 {A, B} -> {C, D}의 신뢰도가 {A, B, C} -> D의 신뢰도보다 크거나 같다.

 

'IT Topic' 카테고리의 다른 글

결합도 & 응집도  (0) 2017.08.02
체크섬(checksum) 구하기  (0) 2017.08.02
동기부여 이론  (0) 2017.08.02
터크먼의 팀 개발 모델  (0) 2017.08.02
국가 사이버 위기 경보 단계  (0) 2017.08.02

+ Recent posts