류프리

0. 정규화

정규화(Normalization)란 다양한 유형의 검사를 통해 데이터 모델을 좀 더 구조화하고 개선시켜 나가는 절차에 관련된 이론이다.

정규화종류	정규화내용
1차 정규화	복수의 속성값을 갖는 속성을 분리
2차 정규화	주식별자에 종속적이지 않은 속성을 분리. 부분종속 속성을 분리
3차 정규화	속성에 종속적인 속성의 분리, 이전 종속(Transitive Dependency) 속성을 분리
보이스-코드 정규화	다수의 주식별자 분리
4차 정규화	다가 종속(Multi-Valued Dependency) 속성 분리
5차 정규화	결합 종속(Join Dependency)일 경우는 두 개 이상의 N개로 분리

1. 정규화를 통한 성능 향상 전략

정규화를 하는 것은 기본적으로 데이터에 대한 중복성을 제거해주고, 데이터가 관심사별로 모여있게 되므로 성능이 향상된다.
물론, 엔티티가 계속 발생되고, 그에 따라 조인이 많이 발생하므로 이로 인해 성능이 저하되기도 하지만 이런 부분은 사례별로 유의하여 반정규화를 적용하는 전략이 필요하다.

정규화를 수행하면 항상 조회시 성능이 저하되는가?

처리조건에 따라서 조회서능이 향상될 수도, 저하될 수도 있다.

정규화가 수행된 모델은 입력/수정/삭제할 때 일반적으로 반정규화된 테이블에 비해 처리성능이 향상 된다.

2. 반정규화된 테이블의 성능저하 사례1

2차 정규화를 적용하여 성능이 향상된 사례

직급명,관서번호,관서명 조회하기

정부보관금관서원장 테이블에서 주식별자를 구성하는 일부속성인 '관서번호'에만 종속적인 속성(관리점번호,관서명,상태,관서등록일자,관서해제일자)들을 별도의 테이블(관서)로 분리함
별도의 테이블로 분리되어 테이블간의 조인이 발생하더라도 PK Unique Index를 이용할 수 있었기 때문에, 성능저하는 아주 미미하다.

관서등록일자가 2010년 이후 관서를 모두 조회하기

납부자번호만큼 누적된 데이터를 읽어서 결과를 구분해 보여주던 것을, 관서수만큼만 존재하는 데이터를 읽어 곧바로 보여주기 때문에, 정규화된 테이블이 훨씬 빠르다.

3. 반정규화된 테이블의 성능저하 사례2

2차 정규화를 적용하여 성능이 향상된 사례

'서울 7호'에서 매각된 총매각금액, 총유찰금액을 산출하기

특정장소(서울7호)에 대해 매각일자를 찾아 매각내용을 조회하려면, 100만 건의 데이터를 읽어 매각일자를 DISTINCT하여 매각일자별매각내역이 조인된다.
일자별매각물건테이블에서 주식별자를 구성하는 일부속성인 '매각일자'에만 종속적인 속성(매각시간,매각장소)들을 별도의 테이블(매각기일)로 분리함.

=> 매각기일 테이블(5천건)과 매각일자별 매각내역과 조인하면 결과를 얻을 수 있으므로, 성능이 향상됨

(Q) 필자가 설명하고자 하는 의도는 이해했으나, 매각일자별매각내역테이블에도 매각일자,매각장소 모두 존재하여, 해당 테이블만 조회해도 원하는 정보는 얻을수 있을 것으로 보임

4. 반정규화된 테이블의 성능저하 사례3

1차 정규화를 적용하여 성능을 향상시킬 수 있는 사례

유형분류코드에 따라 데이터를 조회

유형분류코드가 1~9까지의 속성으로 존재하며, 각 속성마다 인덱스를 생성해줘야 하는 문제가 발생
동일한 속성형식을 두개이상의 속성으로 나열해서 반정규화한 경우에 해당
로우 단위의 중복도 1차 정규화대상이 되지만, 컬럼단위의 중복도 1차 정규화의 대상이 된다.
유형을 관리하는 테이블(모델기능분류코드)을 별도로 만들고, 해당 테이블의 PK인덱스 하나만으로도 성능이 향상될 수 있다.

5. 반정규화된 테이블의 성능저하 사례4

1차 정규화를 적용하여 성능�를 예방할 수 있는 사례

동일한 속성형식(수량,주문수량,금액,주문금액)을 관리할 수 있는 테이블을 별도로 만들어, 일재고와 일재고상세를 구분함으로써 일재고에 발생되는 트랜잭션 성능저하를 예방할 수 있다.

6. 함수적 종속성(Functional Dependency)에 근거한 정규화 수행필요

함수의 종속성은 데이터들이 어떤 기준값에 의해 종속되는 현상을 지칭한다.
기준값을 결정자(Determinant), 종속되는 값을 종속자(Dependent)라고 한다.
예를 들어 주민등록번호가 신고되면 그 사람의 이름,출생지,주소가 생성되어 유일한 값을 갖게 되므로 '주민번호가 이름,출생지,주소를 함수적으로 결정한다'라고 말할 수 있다.
함수의 종속성은 데이터의 근본적인 속성으로, 정규화작업이나 각 오브젝트에 속성을 배치하는데 이 함수의 종속성을 이용한다.

문서정보

이 문서는 구루비에서 작성하였습니다.
이 문서를 다른 블로그나 홈페이지에 게재하실 경우에는 출처를 꼭 밝혀 주시면 고맙겠습니다.~^^
출처 : http://wiki.gurubee.net/pages/viewpage.action?pageId=26743668&
구루비 지식창고의 모든 문서는 크리에이티브 커먼즈의 저작자표시-비영리-동일조건변경허락(BY-NC-SA) 라이선스에 따라 자유롭게 사용할 수 있습니다.

기법분류	기법	내용
테이블병합	1:1 관계 테이블병합	1:1 관계를 통합하여 성능향상
	1:M 관계 테이블병합	1:M 관계를 통합하여 성능향상
	슈퍼/서브타입 테이블병합	슈퍼/서브 관계를 통합하여 성능향상
테이블분할	수직분할	컬럼단위의 테이블을 디스크 I/O를 분산처리하기 위해 테이블을 1:1로 분리하여 성능향상(트랜잭션의 처리되는 유형파악이 선행되어야 함)
	수평분할	로우단위로 집중 발생되는 트랜잭션을 분석하여 디스크I/O 및 데이터 접근의 효율성을 높여 성능을 향상하기 위해 로우단위로 테이블을 쪼갬(관계가 없음)
테이블추가	중복테이블 추가	다른 업무이거나 서버가 다른 경우 동일한 테이블구조를 중복하여 원격조인을 제거하여 성능을 향상
	통계테이블 추가	SUM,AVG 등을 미리 수행하여 계산해 둠으로써 조회시 성능을 향상
	이력테이블 추가	이력테이블 중에서 마스터 테이블에 존재하는 레코드를 중복하여 이력테이블에 존재하는 방법
	부분테이블 추가	하나의 테이블을 전체 칼럼 중 자주 이용하는 집중화된 컬럼이 있을 경우, 디스크I/O를 줄이기 위해 해당 컬럼들을 모아놓은 별도의 반정규화된 테이블을 생성

반정규화 기법	내용
중복컬럼 추가	조인시 성능저하를 예방하기 위해,중복된 컬럼을 위치시킴
파생컬럼 추가	트랜잭션이 처리되는 시점에 계산에 의해 발생되는 성능저하를 예방하기 위해, 미리 계산하여 컬럼에 보관
이력테이블 컬럼추가	대량의 이력데이터 처리시 불특정 일 조회나 최근 값을 조회할때 나타날 수 있는 성능저하를 예방하기 위해 기능성 컬럼(최근값여부, 시작일자,종료일자)을 추가함
PK에 의한 컬럼추가	복합의미를 갖는 PK를 단일속성으로 구성했을 때 발생되며, PK안에 데이터가 존재하지만 성능향상을 위해 일반속성으로 포함하는 방법
응용시스탬 오작동을 위한 컬럼 추가	업무적으로는 의미가 없으나, 데이터 처리시 오류로 인해 원래값으로 복구하길 원하는 경우 이전 데이터를 임시적으로 중복보관하는 방법

2장. 데이터 모델과 성능 - 제2절 정규화와 성능 (0)	2017.10.03
2장. 데이터 모델과 성능 - 제1절 성능 데이터 모델링의 개요 (0)	2017.09.26
1장. 데이터 모델링의 이해 - 제5절 식별자 (0)	2017.09.23
1장. 데이터 모델링의 이해 - 제4절 관계(Relationship) (0)	2017.09.21
1장. 데이터 모델링의 이해 - 제3절 속성(Attribute) (0)	2017.09.21

2장. 데이터 모델과 성능 - 제3절 반정규화와 성능(NEW) (0)	2017.10.08
2장. 데이터 모델과 성능 - 제1절 성능 데이터 모델링의 개요 (0)	2017.09.26
1장. 데이터 모델링의 이해 - 제5절 식별자 (0)	2017.09.23
1장. 데이터 모델링의 이해 - 제4절 관계(Relationship) (0)	2017.09.21
1장. 데이터 모델링의 이해 - 제3절 속성(Attribute) (0)	2017.09.21

2장. 데이터 모델과 성능 - 제3절 반정규화와 성능(NEW) (0)	2017.10.08
2장. 데이터 모델과 성능 - 제2절 정규화와 성능 (0)	2017.10.03
1장. 데이터 모델링의 이해 - 제5절 식별자 (0)	2017.09.23
1장. 데이터 모델링의 이해 - 제4절 관계(Relationship) (0)	2017.09.21
1장. 데이터 모델링의 이해 - 제3절 속성(Attribute) (0)	2017.09.21

특징	내용	비고
유일성	주식별자에 의해 Enriry 내 모든 Instance 들을 유일하게 구분함	예) 사원번호가 주식별자가 모든 직원들에 대해 개인별로 고유번호 부여됨
최소성	주식별자를 구성하는 속성의 수는 유일성을 만족하는 최소의 수가 되어야 함	예) 사원번호만으로도 고유한 구조 사원분류코드+사원번허는 부적절함
불변성	주식별자가 한번 특정 Entity 에지정되면 그값은 변하지 말아야 함	예) 사원번호의 값이 변한다는 의미는 이기록이 말소되고 새로운 기록이 발생되는 개념임
존재성	주식별자가 지정되면 반드시 데이터값이 존재(Null 안됨)	사원번호 없는 회사직원은 있을 수 없음.

분류	식별자	설명
대표성여부	주식별자	엔터티 내에서 각 어커런스를 구분할 수 있는 구분자이며, 타 엔터티와 참조관계를 연결할 수 있는 식별자
	보조식별자	엔터티 내에서 각 어커런스를 구분할 수 있는 구분자이나 대표성을 가지지 못해 참조관계 연결을 못함
스스로생성여부	내부식별자	엔터티 내부에서 스스로 만들어 지는 식별자
	외부식별자	타 엔터티와의 관계를 통해 타 엔터티로부터 받아오는 식별자
속성의 수	단일식별자	하나의 속성으로 구성된 식별자
	복합식별자	둘 이상의 속성으로 구성된 식별자
대체성여부	본질식별자	업무에 의해 만들어 지는 식별자
	인조식별자	업무적으로 만들어지지는 않지만 원조식별자가 복잡하 구성을 가지고 있기 때문에인위적으로 만드는 식별자

항목	식별자관계	비식별자관계
목적	강한 연결관계 표현	약한 연결관계 표현
자식 주식별자 영향	자식 주식별자의 구성에 포함	자식 일반속성에 포함
표기법	실선 표현	점선 표현
연결 고려사항	- 반드시 부모엔터티 종속 - 자식 주식별자 구성에 부모 주식별자 포함 필요 - 상속받은 주식별자속성을 타 엔터티에 이전 필요	- 약한 종속관계 - 자식 주식별자 구성을 독립적으로 구성 - 자식 주식별자 구성에 부모 주식별자 부분 필요 - 상속받은 주식별자속성을 타 엔터티에 차단 필요 - 부모쪽의 관계참여가 선택관계

구분	특징	예시
유형엔터티 (Tangible Entity)	물리적 형태가 있고 안정적이며 지속적으로 활용되는 Entity 업무로부터 Entity 를 구분하기가 가장 용이하다.	사원, 물품, 강사
개념엔터티 (Conceptual Entity)	물리적 형태는 존재하지 않고 관리해야할 개념적 정보로 구분이 되는 Entity	조직, 보험상품
사건엔터티 (Event Entity)	업무를 수행함에 따라 발생되는 Entity 비교적 발생량이 많으며 각종 통계자료에 이용될 수 있다.	주문, 청구, 미납

구분	특징	예시
기본엔터티 (Fundamental Entity, Key Entity)	그 업무에 원래 존재하는 정보로서 다른 Entity와 관계에 의해 생성되지 않고 독립적으로 생성 가능 다른 Entity로부터 주식별자를 상속받지 않고 자신의 고유 식별자를 가짐	사원, 부서, 고객, 상품, 자재
중심엔터티 (Main Entity)	기본 Entity로부터 발생되고, 그 업무에 있어서 중요한 역할을 한다. 데이터량이 많이 발생되고 다른 Entity와의 관계를 통해 행위Entity를 생성한다.	계약, 사고, 청구, 주문, 매출
행위엔터티 (Active Entity)	두개 이상의 부모 Entity로부터 발생되고 자주 내용이 바뀌거나 데이터량이 증가된다. 분석초기단계에서는 잘 나타나지 않으며 상세설계나 프로세스와 상관모델링을 하면서 도출될 수 있다.	주문목록, 사원변경이력

3대 특징	설명
추상화 (모형화, 가설적)	현실세계를 일정한 형식에 맞추어 표현을 한다는 의미로 정리할 수 있다. 즉, 다양한 현상을 일정한 양식인 표기법에 의해 표기한다는 것이다.
단순화	복잡한 현실세계를 약속된 규약에 의해 제한된 표기법이나 언어로 표현하여 쉽게 이해할 수 있도록 하는 개념을 의미한다.
명확화	누구나 이해하기 쉽게 하기 위해 대상에 대한 애매모호함을 제거하고 정확하게 현상을 기술하는 것을 의미한다.

관점	설명	키워드
데이터관점	업무가 어떤 데이터와 관련이 있는지? 데이터간의 관계는 무엇인지?	Data What
프로세스관점	업무가 실제하고 있는 일이 무었인지? 무엇을 모델링해야 하는지?	Process How
데이터와 프로세스의 상관관점	업무가 처리하는 일의 방법에 따라 데이터는 어떻게 영향을 받고 있는지?	Interaction (상호작용)

데이터 모델링	내용	수준
개념적 데이터 모델링	추상화 수준이 높고 업무중심적이고 포괄적인 수준의 모델링 진행. 전사적 데이터 모델릴, EA 수립시 많이 사용	추상적
논리적 데이터 모델링	시스템으로 구축하고자 하는 업무에 대해 Key, 속성, 관계 등을 정확하게 표현, 재사용성이 높음
물리적 데이터 모델링	실제로 데이터베이스에 이식할 수 있도록 성능, 저장 등 물리적인 성격을 고려하여 설계	구체적

항목	내용	비고
외부스키마 (External Schema)	- View 단계, 여러 개의 사용자 관점으로 구성, 즉 개개 사용자 단계로서 개개 사용자가 보는 개인적 DB 스키마 - DB의 개별 사용자나 응용프로그래머가 접근하는 DB 정의	사용자 관점 접근하는 특성에 따른 스키마 구성
개념스키마 (Conceptual Schema)	- 개념단계, 하나의 개념적 스키마로 구성, 모든사용자 관점을 통합한 조직 전체의 DB를 구성하는 것 - 모든 응용시스템들이나 사용자들이 필요로 하는 데이터를 통합한 조직 전체의 DB를 기술한 것으로 DB에 저장되는 데이터와 그들간의 관계를 표현한 스키마	통합관점
내부스키마 (Internal Schema)	- 내부단계, 내부 스키마로 구성, DB가 물리적으로 저장된 형식 - 물리적 장치에서 데이터가 실제적으로 저장되는 방법을 표현하는 스키마	물리적 저장구조

독립성	내용	특징
논리적 독립성	- 개념스키마가 변경되어도 외부스키마에는 영향을 미치지 않도록 지원하는 것 - 논리적 구조가 변경되어도 응용프로그램에 영향 없음	- 사용자 특성에 맞는 변경 가능 - 통합 구조 변경 가능
물리적 독립성	- 내부스키마가 변경되어도 외부/개념 스키마는 영향을 받지 않도록 지원하는 것 - 저장장치의 구조변경은 응용프로그램과 개념스키마에 영향 없음	- 물리적 구조 영향 없이 개념구조 변경 가능 - 개념구조 영향 없이 물리적 구조 변경 가능

Attribute	Domain
학점	0.0~4.0 실수
주소	20자리 문자열

병원시스템	Entity	인사시스템
O	환자	X
X	토익점수	O

사상	내용	예
외부적/개념적 사상 (논리적사상)	- 외부적 뷰와 개념적 뷰의 상호 관련성을 정의함	사용자가 접근하는 형식에 따라 다른 타입의 필드를 가질 수 있음. 개념적 뷰의 필드타입은 변화가 없음
개념적/내부적 사상 (물리적사상)	- 개념적 뷰와 저장된 데이터베이스의 상호 관련성을 정의함	만약 저장된 데이터베이스 구조가 바뀐다면 개념적/내부적 사상이 바뀌어야 함. 그래야 개념적 스키마가 그대로 남아있게 됨

개념	복수/집합개념 타입/클레스	개별/단수개념 어커런스/인스턴스
어떤 것 (Things)	Entity Type	Entity
	Entity	Instance Occurrence
어떤 것 간의 연관 (Association between Things)	관계(Relationship)	패어링(pairing)
어떤 것의 성격 (Characteristic of a Thing)	속성(Attribute)	속성값(Attribute Value)

SQL전문가

1. 반정규화를 통한 성능향상 전략

가.반정규화의 정의

나.반정규화의 적용방법

2. 반정규화의 기법

가.테이블 반정규화

나.컬럼 반정규화

다.관계 반정규화

3. 정규화가 잘 정의된 데이터 모델에서 성능이 저하될 수 있는 경우

4. 정규화가 잘 정의된 데이터 모델에서 성능이 저하된 경우

문서정보

'SQL전문가 > 데이터 모델링의 이해' 카테고리의 다른 글

0. 정규화

1. 정규화를 통한 성능 향상 전략

2. 반정규화된 테이블의 성능저하 사례1

3. 반정규화된 테이블의 성능저하 사례2

4. 반정규화된 테이블의 성능저하 사례3

5. 반정규화된 테이블의 성능저하 사례4

6. 함수적 종속성(Functional Dependency)에 근거한 정규화 수행필요

문서정보

'SQL전문가 > 데이터 모델링의 이해' 카테고리의 다른 글

1. 성능 데이터 모델링의 정의

2. 성능 데이터 모델링 수행시점

3. 성능 데이터 모델링 고려사항

문서정보

'SQL전문가 > 데이터 모델링의 이해' 카테고리의 다른 글

제5절 식별자

1. 식별자의 개념

2. 식별자의 특징

3. 식별자 분류 및 표기법

가. 식별자 분류

나. 식별자 표기법

4. 주식별자 도출 기준

5. 식별자관계와 비식별자관계에 따른 식별자

가. 식별자관계와 비식별자관계의 결정

나. 식별자관계

다. 비식별자관계

라. 식별자관계로만 설정할 경우 문제점

마. 비식별자관계로만 설정할 경우 문제점

바. 식별자관계와 비식별자관계 모델링

1) 비식별관계 선택 프로세스

2) 식별자와 비식별자관계 비교

3) 식별자와 비식별자를 적용한 데이터 모델

문서정보

'SQL전문가 > 데이터 모델링의 이해' 카테고리의 다른 글

제4절 관계(Relationship)

1. 관계의 개념

가. 관계의 정의

나. 관계의 페어링(Relationship Paring)

2. 관계의 분류

3. 관계의 표기법

가. 관계명(Membership) : 관계의 이름

나. 관계차수(Degree / Cardinality) : 1:1, 1:M, M:N

다. 관계선택사양(Optionality) : 필수관계, 선택관계

4. 관계의 정의 및 읽는 방법

가. 관계 체크사항

나. 관계 읽기

문서정보

'SQL전문가 > 데이터 모델링의 이해' 카테고리의 다른 글

제3절 속성(Attribute)

1. 속성(Attribute)의 개념

2. 엔터티, 인스턴스와 속성, 속성값에 대한 내용과 표기법

가. 엔터티, 인스턴스, 속성, 속성값의 관계

나. 속성의 표기법

3. 속성의 특징

4. 속성의 분류

가. 속성의 특성에 따른 분류

나. 엔터티 구성방식에 따른 분류

5. 도메인(Domain)

6. 속성의 명명(Naming)

문서정보

'SQL전문가 > 데이터 모델링의 이해' 카테고리의 다른 글

제2절 엔터티(Entity)

1. Entity 의 개념

2. Entity 와 Instance 에 대한 내용과 표기법

3. Entity 의 특징

가. 업무에서 필요로 하는 정보

나. 식별이 가능해야 함

다. Instance 의 집합

라. 업무 프로세스에 의해 이용