류프리

0. 정규화

정규화(Normalization)란 다양한 유형의 검사를 통해 데이터 모델을 좀 더 구조화하고 개선시켜 나가는 절차에 관련된 이론이다.

정규화종류	정규화내용
1차 정규화	복수의 속성값을 갖는 속성을 분리
2차 정규화	주식별자에 종속적이지 않은 속성을 분리. 부분종속 속성을 분리
3차 정규화	속성에 종속적인 속성의 분리, 이전 종속(Transitive Dependency) 속성을 분리
보이스-코드 정규화	다수의 주식별자 분리
4차 정규화	다가 종속(Multi-Valued Dependency) 속성 분리
5차 정규화	결합 종속(Join Dependency)일 경우는 두 개 이상의 N개로 분리

1. 정규화를 통한 성능 향상 전략

정규화를 하는 것은 기본적으로 데이터에 대한 중복성을 제거해주고, 데이터가 관심사별로 모여있게 되므로 성능이 향상된다.
물론, 엔티티가 계속 발생되고, 그에 따라 조인이 많이 발생하므로 이로 인해 성능이 저하되기도 하지만 이런 부분은 사례별로 유의하여 반정규화를 적용하는 전략이 필요하다.

정규화를 수행하면 항상 조회시 성능이 저하되는가?

처리조건에 따라서 조회서능이 향상될 수도, 저하될 수도 있다.

정규화가 수행된 모델은 입력/수정/삭제할 때 일반적으로 반정규화된 테이블에 비해 처리성능이 향상 된다.

2. 반정규화된 테이블의 성능저하 사례1

2차 정규화를 적용하여 성능이 향상된 사례

직급명,관서번호,관서명 조회하기

정부보관금관서원장 테이블에서 주식별자를 구성하는 일부속성인 '관서번호'에만 종속적인 속성(관리점번호,관서명,상태,관서등록일자,관서해제일자)들을 별도의 테이블(관서)로 분리함
별도의 테이블로 분리되어 테이블간의 조인이 발생하더라도 PK Unique Index를 이용할 수 있었기 때문에, 성능저하는 아주 미미하다.

관서등록일자가 2010년 이후 관서를 모두 조회하기

납부자번호만큼 누적된 데이터를 읽어서 결과를 구분해 보여주던 것을, 관서수만큼만 존재하는 데이터를 읽어 곧바로 보여주기 때문에, 정규화된 테이블이 훨씬 빠르다.

3. 반정규화된 테이블의 성능저하 사례2

2차 정규화를 적용하여 성능이 향상된 사례

'서울 7호'에서 매각된 총매각금액, 총유찰금액을 산출하기

특정장소(서울7호)에 대해 매각일자를 찾아 매각내용을 조회하려면, 100만 건의 데이터를 읽어 매각일자를 DISTINCT하여 매각일자별매각내역이 조인된다.
일자별매각물건테이블에서 주식별자를 구성하는 일부속성인 '매각일자'에만 종속적인 속성(매각시간,매각장소)들을 별도의 테이블(매각기일)로 분리함.

=> 매각기일 테이블(5천건)과 매각일자별 매각내역과 조인하면 결과를 얻을 수 있으므로, 성능이 향상됨

(Q) 필자가 설명하고자 하는 의도는 이해했으나, 매각일자별매각내역테이블에도 매각일자,매각장소 모두 존재하여, 해당 테이블만 조회해도 원하는 정보는 얻을수 있을 것으로 보임

4. 반정규화된 테이블의 성능저하 사례3

1차 정규화를 적용하여 성능을 향상시킬 수 있는 사례

유형분류코드에 따라 데이터를 조회

유형분류코드가 1~9까지의 속성으로 존재하며, 각 속성마다 인덱스를 생성해줘야 하는 문제가 발생
동일한 속성형식을 두개이상의 속성으로 나열해서 반정규화한 경우에 해당
로우 단위의 중복도 1차 정규화대상이 되지만, 컬럼단위의 중복도 1차 정규화의 대상이 된다.
유형을 관리하는 테이블(모델기능분류코드)을 별도로 만들고, 해당 테이블의 PK인덱스 하나만으로도 성능이 향상될 수 있다.

5. 반정규화된 테이블의 성능저하 사례4

1차 정규화를 적용하여 성능�를 예방할 수 있는 사례

동일한 속성형식(수량,주문수량,금액,주문금액)을 관리할 수 있는 테이블을 별도로 만들어, 일재고와 일재고상세를 구분함으로써 일재고에 발생되는 트랜잭션 성능저하를 예방할 수 있다.

6. 함수적 종속성(Functional Dependency)에 근거한 정규화 수행필요

함수의 종속성은 데이터들이 어떤 기준값에 의해 종속되는 현상을 지칭한다.
기준값을 결정자(Determinant), 종속되는 값을 종속자(Dependent)라고 한다.
예를 들어 주민등록번호가 신고되면 그 사람의 이름,출생지,주소가 생성되어 유일한 값을 갖게 되므로 '주민번호가 이름,출생지,주소를 함수적으로 결정한다'라고 말할 수 있다.
함수의 종속성은 데이터의 근본적인 속성으로, 정규화작업이나 각 오브젝트에 속성을 배치하는데 이 함수의 종속성을 이용한다.

문서정보

이 문서는 구루비에서 작성하였습니다.
이 문서를 다른 블로그나 홈페이지에 게재하실 경우에는 출처를 꼭 밝혀 주시면 고맙겠습니다.~^^
출처 : http://wiki.gurubee.net/pages/viewpage.action?pageId=26743668&
구루비 지식창고의 모든 문서는 크리에이티브 커먼즈의 저작자표시-비영리-동일조건변경허락(BY-NC-SA) 라이선스에 따라 자유롭게 사용할 수 있습니다.

기법분류	기법	내용
테이블병합	1:1 관계 테이블병합	1:1 관계를 통합하여 성능향상
	1:M 관계 테이블병합	1:M 관계를 통합하여 성능향상
	슈퍼/서브타입 테이블병합	슈퍼/서브 관계를 통합하여 성능향상
테이블분할	수직분할	컬럼단위의 테이블을 디스크 I/O를 분산처리하기 위해 테이블을 1:1로 분리하여 성능향상(트랜잭션의 처리되는 유형파악이 선행되어야 함)
	수평분할	로우단위로 집중 발생되는 트랜잭션을 분석하여 디스크I/O 및 데이터 접근의 효율성을 높여 성능을 향상하기 위해 로우단위로 테이블을 쪼갬(관계가 없음)
테이블추가	중복테이블 추가	다른 업무이거나 서버가 다른 경우 동일한 테이블구조를 중복하여 원격조인을 제거하여 성능을 향상
	통계테이블 추가	SUM,AVG 등을 미리 수행하여 계산해 둠으로써 조회시 성능을 향상
	이력테이블 추가	이력테이블 중에서 마스터 테이블에 존재하는 레코드를 중복하여 이력테이블에 존재하는 방법
	부분테이블 추가	하나의 테이블을 전체 칼럼 중 자주 이용하는 집중화된 컬럼이 있을 경우, 디스크I/O를 줄이기 위해 해당 컬럼들을 모아놓은 별도의 반정규화된 테이블을 생성

반정규화 기법	내용
중복컬럼 추가	조인시 성능저하를 예방하기 위해,중복된 컬럼을 위치시킴
파생컬럼 추가	트랜잭션이 처리되는 시점에 계산에 의해 발생되는 성능저하를 예방하기 위해, 미리 계산하여 컬럼에 보관
이력테이블 컬럼추가	대량의 이력데이터 처리시 불특정 일 조회나 최근 값을 조회할때 나타날 수 있는 성능저하를 예방하기 위해 기능성 컬럼(최근값여부, 시작일자,종료일자)을 추가함
PK에 의한 컬럼추가	복합의미를 갖는 PK를 단일속성으로 구성했을 때 발생되며, PK안에 데이터가 존재하지만 성능향상을 위해 일반속성으로 포함하는 방법
응용시스탬 오작동을 위한 컬럼 추가	업무적으로는 의미가 없으나, 데이터 처리시 오류로 인해 원래값으로 복구하길 원하는 경우 이전 데이터를 임시적으로 중복보관하는 방법

2장. 데이터 모델과 성능 - 제2절 정규화와 성능 (0)	2017.10.03
2장. 데이터 모델과 성능 - 제1절 성능 데이터 모델링의 개요 (0)	2017.09.26
1장. 데이터 모델링의 이해 - 제5절 식별자 (0)	2017.09.23
1장. 데이터 모델링의 이해 - 제4절 관계(Relationship) (0)	2017.09.21
1장. 데이터 모델링의 이해 - 제3절 속성(Attribute) (0)	2017.09.21

2장. 데이터 모델과 성능 - 제3절 반정규화와 성능(NEW) (0)	2017.10.08
2장. 데이터 모델과 성능 - 제1절 성능 데이터 모델링의 개요 (0)	2017.09.26
1장. 데이터 모델링의 이해 - 제5절 식별자 (0)	2017.09.23
1장. 데이터 모델링의 이해 - 제4절 관계(Relationship) (0)	2017.09.21
1장. 데이터 모델링의 이해 - 제3절 속성(Attribute) (0)	2017.09.21

개발자들을 위한 성공적인 머신러닝의 10가지 핵심 요소 (0)	2017.10.09
인기 최정점에 선 머신러닝에 대해 알아보자 (0)	2017.10.09
빅 데이터에 입문한 기업들에게 필요한 것은? 'BI와 BA' (0)	2017.10.02
성공하는 BI 전략의 7가지 특징 (0)	2017.10.02
판별 분석(Discriminant Analysis) (0)	2017.08.04

포티넷, 2017년 2분기 ‘글로벌 보안 위협 전망 보고서’ 발표 (0)	2017.09.23
가짜의 가짜? SW 해적판으로 위장한 악성코드! (0)	2017.09.22
나만 궁금할까? 스마트폰 보안 인증서 오류, 왜? (0)	2017.09.22
필수가 된 사이버보안 교육, 지루함을 벗어나라 (0)	2017.09.20
DDoS 보호·완화·방어를 위한 7가지 필수 팁 (0)	2017.09.20

Attribute	Domain
학점	0.0~4.0 실수
주소	20자리 문자열

데이터

1. 반정규화를 통한 성능향상 전략

가.반정규화의 정의

나.반정규화의 적용방법

2. 반정규화의 기법

가.테이블 반정규화

나.컬럼 반정규화

다.관계 반정규화

3. 정규화가 잘 정의된 데이터 모델에서 성능이 저하될 수 있는 경우

4. 정규화가 잘 정의된 데이터 모델에서 성능이 저하된 경우

문서정보

'SQL전문가 > 데이터 모델링의 이해' 카테고리의 다른 글

0. 정규화

1. 정규화를 통한 성능 향상 전략

2. 반정규화된 테이블의 성능저하 사례1

3. 반정규화된 테이블의 성능저하 사례2

4. 반정규화된 테이블의 성능저하 사례3

5. 반정규화된 테이블의 성능저하 사례4

6. 함수적 종속성(Functional Dependency)에 근거한 정규화 수행필요

문서정보

'SQL전문가 > 데이터 모델링의 이해' 카테고리의 다른 글

'빅데이터 > BI' 카테고리의 다른 글

'정보보안기사 > 보안이슈' 카테고리의 다른 글

1. 성능 데이터 모델링의 정의

2. 성능 데이터 모델링 수행시점

3. 성능 데이터 모델링 고려사항

문서정보

'SQL전문가 > 데이터 모델링의 이해' 카테고리의 다른 글

제4절 관계(Relationship)

1. 관계의 개념

가. 관계의 정의

나. 관계의 페어링(Relationship Paring)

2. 관계의 분류

3. 관계의 표기법

가. 관계명(Membership) : 관계의 이름

나. 관계차수(Degree / Cardinality) : 1:1, 1:M, M:N

다. 관계선택사양(Optionality) : 필수관계, 선택관계

4. 관계의 정의 및 읽는 방법

가. 관계 체크사항

나. 관계 읽기

문서정보

'SQL전문가 > 데이터 모델링의 이해' 카테고리의 다른 글

제3절 속성(Attribute)

1. 속성(Attribute)의 개념

2. 엔터티, 인스턴스와 속성, 속성값에 대한 내용과 표기법

가. 엔터티, 인스턴스, 속성, 속성값의 관계

나. 속성의 표기법

3. 속성의 특징

4. 속성의 분류

가. 속성의 특성에 따른 분류

나. 엔터티 구성방식에 따른 분류

5. 도메인(Domain)

6. 속성의 명명(Naming)

문서정보

'SQL전문가 > 데이터 모델링의 이해' 카테고리의 다른 글

티스토리툴바