제1장. Apriori 원리
제1절. 데이터 마이닝(Data Mining)
제1항. 정의
대용량 데이터 집합 (Data warehouse, web log)에서 유용하고 가치있는 새로운 규칙이나 패턴을 도출하기 위한 자동화된 지식 발견 과정
제2항. 기법
일. 연관(Association)
하나. 대용량의 트랜잭션 데이터로부터 “X이면 Y이다” 형식의 연관 관계를 발견하는 기법
둘. 지지도(Support)
셋. 신뢰도(Confidence)
넷. Apriori 알고리즘 사용
제2절. Apriori 이론
제1항. Apriori 이론이란?
연관규칙(Association rule)의 대표적인 형태로써, 데이터들에 대한 발생빈도(빈발, frequent) 를 기반으로 각 데이터 간의 연관관계를 밝히기 위한 방법을 말하며, 장바구니 분석을 예로 들수 있다.
위의 그림은 (A,B)가 발생하고 나서 그와 연관된 트랜잭션이 일어날 수 있는 상태를 표시한 트리이다. 이때 (A,B)가 발생할 확률이 적었다면 (A,B)와 연관된 다른 트랜잭션들도 발생 확률이 적음을 예측할 수 있다.
제2항. 트랜잭션(transaction) 이란?
대형마트에 방문하여 물건을 구입하는 손님들중 손님 한명이 산 물품을 트랜잭션(transaction) 이라고 한다. 대형마트는 데이터베이스를 구축하고 있으며, 수많은 트랜잭션들을 분석하여 의미있는 패턴을 찾아낼 수 있다.
제3항. Apriori 연관규칙
일. 손님들의 트랜잭션들 중에서 기저귀와 맥주와의 연관관계에 대한 규칙을 발견하고자 한다.
이. 아래에 주어진 트랜잭션을 보고, 빈발 항목 집합(large itemsets)과 비빈발 항목 집합(small itemsets)을 찾기 위해서, 최소 지지도(Minimum support) 50%라고 경계값을 정하여 기준점을 삼는다.