카테고리 없음

3. 데이터 입출력 구현

모루우 2026. 2. 25. 15:09
728x90
반응형

1. 데이터 모델

(1) 데이터 모델(Data Model)의 개념

현실 세계의 정보를 인간과 컴퓨터가 이해할 수 있도록 추상화하여 표현한 모델

표시해야 할 요소에는 논리적 데이터 구조, 연산, 제약 조건이 있음

 

구조(Structure): 데이터베이스에 논리적으로 표현될 대상으로서의 개체 타입과 개체 타입 간의 관계

연산(Operation): 릴레이션을 조작하기 위한 관계 연산을 나타냄

제약조건(Constraint): 릴레이션의 특정 칼럼에 설정하는 제약을 의미

 

(2) 데이터 모델 절차

<요구사항 분석> - <개념적 데이터 모델> - <논리적 데이터 모델> - <물리적 데이터 모델>

개념적 설계(개념적 데이터 모델): 사용자의 요구에 대한 트랜잭션을 모델링하는 단계, 주요 산출물은 개체-관계 다이어그램이 있음

논리적 설계(논리적 데이터 모델): 트랜잭션의 인터페이스를 설계하는 단계, 논리적 스키마를 설계하는 단계, 정규화 수행, 논리적 데이터베이스 구조로 매핑, 스키마의 평가 및 정제

물리적 설계(물리적 데이터 모델): 테이블, 인덱스, 뷰, 파티션 등 객체를 생성 반 정규화 수행, 레코드 집중의 분석 및 설계, 저장 레코드 양식 설계, 접근 경로 설계

 

2. 논리 데이터 모델

(1) 논리 데이터 모델링 개념

- 업무의 모습을 모델링 표기법으로 형상화하여 사람이 이해하기 쉽게 표현하는 프로세스

- 개념 모델로부터 업무 영역의 업무 데이터 및 규칙을 구체적으로 표현한 모델

 

(2) 논리적 데이터 모델링 종류

관계 데이터 모델: 논리적 구조가 2차원 형태로 구성된 모델, 기본키와 외래키로 관계 표현

계층 데이터 모델: 논리적 구조가 트리 형태로 구성된 모델, 상하관계가 존재, 1:N 관계만 허용

네트워크 데이터 모델: 논리적 구조가 그래프 형태로 구성된 모델, 다대다 관계만 만족

 

(3) 관계 데이터 모델

관계 데이터 모델(Relation Data Model) 개념

- 데이터를 행과 열로 구성된 2차원 테이블 형태로 구성한 모델

릴레이션(Relation): 행(Row)과 열(Column)로 구성된 테이블

튜플(Tuple): 릴레이션의 행(Row)

속성(Attribute): 릴레이션의 열(Column)

카디널리티(Cardinality): 튜플(Row)의 수

차수(Degree): 속성(Column)의 수

스키마(Schema): 데이터베이스의 구조, 제약 조건 등의 정보를 담고 있는 기본적인 구조

인스턴스(Instance): 정의된 스키마에 따라 생성된 테이블에 실제 저장된 데이터의 집합

식별자(Identifier): 관계형 데이터베이스에서 각각을 구분할 수 있는 논리적인 개념

도메인(Domain): 하나의 애트리뷰트가 취할 수 있는 같은 타입의 원자값들의 집합

 

관계 대수(Relation Algebra) 개념

관계형 데이터베이스에서 원하는 정보와 그 정보를 어떻게 유도하는가를 기술하는 절차적 정형 언어

 

관계 대수 연산자의 종류

- 일반 집합 연산자: 수학의 집합 개념을 릴레이션에 적용한 연산자

합집합(Union): 합병 가능한 두 릴레이션 R과 S의 합집합

교집합(Intersection): 릴레이션 R과 S에 속하는 모든 튜플로 결과 릴레이션 구성

차집합(Difference): R에 존재하고 S에 미존재하는 튜플로 결과 릴레이션 구성

카티션 프로덕트(CARTESIAN Product): R과 S에 속한 모든 튜플을 연결해 만들어진 새로운 튜플로 릴레이션 구성

차수는 각 릴레이션 차수의 합이 되고, 카디널리티는 각 릴레이션의 카디널리티의 곱

 

- 순수 관계 연산자: 관계 데이터베이스에 적용할 수 있도록 특별히 개발한 관계 연산자

Select: 릴레이션 R에서 조건을 만족하는 튜플 반환

Product: 릴레이션 R에서 주어진 속성들의 값으로만 구성된 튜플 반환

Join: 공통 속성을 이용해 R과 S의 튜플들을 연결해 만들어진 튜플 반환

Division: 릴레이션 S의 모든 튜플과 관련 있는 R의 튜플 반환

 

관계해석

- 관계해석(Relational Calculus) 개념

관계 해석은 튜플 관계 해석과 도메인 관계 해석을 하는 비절차적 언어

 

- 관계해석 특징

프레디킷 해석(Predicate Calculus)에 기반한 언어이며 비절차적 언어(원하는 정보가 무엇이라는 것만 선언)

 

관계 대수와 관계 해석 비교

관계 대수

특징: 절차적 언어(순서 명시)

목적: 어떻게 유도하는가? (How)

종류: 순수관계 연산자, 일반집합 연산자

 

관계 해석

특징: 비절차적 언어(계산 수식의 유연적 사용), 프레디킷 해석(predicate Calculus) 기반

목적: 무엇을 얻을 것인가? (What)

종류: 튜플 관계 해석, 도메인 관계 해석

 

(4) 개체-관계(E-R) 모델

E-R 모델은 현실 세계에 존재하는 데이터와 그들 간의 관계를 사람이 이해할 수 있는 형태로 명확하게 표현하기 위해서 가장 널리 사용되고 있는 모델

논리 데이터 모델링에서는 모든 이해당사자와 의사소통의 보조 자료로 E-R 모델을 활용

 

개체-관계(E-R) 다이어그램 기호

개체 집합 - 사각형

관계 집합 - 마름모

속성 - 타원

다중 값 속성 - 이중 타원

개체 집합-관계 집합 연결 - 실선

개체 집합 - 속성 연결 - 실선

관계 집합 - 속성 연결 - 점선

 

(5) 정규화

이상 현상(Anomaly)

- 이상 현상은 데이터의 중복성으로 인해 릴레이션을 조작할 때 발생하는 비합리적 현상

삽입 이상(Insention Anomaly): 릴레이션에 데이터를 삽입할 때 의도와는 상관없이 원하지 않은 값들도 함께 삽입되는 현상

삭제 이상(Deletion Anomaly): 릴레이션에서 한 튜플을 삭제할 때 의도와는 상관없는 값들도 함께 삭제되는 연쇄가 일어나는 현상

갱신 이상(Update Anomaly): 릴레이션에서 튜플에 있는 속성값을 갱신할 때 일부 튜플의 정보만 갱신되어 정보의 모순이 생기는 현상

 

함수 종속

- 함수 종속(FD:Function Dependency) 개념

함수 종속은 릴레이션에서 속성의 의미와 속성 간 상호 관계로부터 발생하는 제약 조건

 

- 결정자/종속자

X->Y 관계일 때 X는 결정자, Y는 종속자

 

- 함수 종속 종류

부분 함수 종속(Partial Functional Dependency): 릴레이션에서 기본 키가 복합 키일 경우 기본 키를 구성하는 속성 중 일부에게 종속된 경우

완전 함수 종속(Full Functional Dependency): 

이행 함수 종속(Transtive Functional Dependency):

 

정규화(Normalization)의 개념

관계형 데이터 모델에서 데이터의 중복성을 제거하여 이상현상을 방지하고 데이터의 일관성과 정확성을 유지하기 위해 무손실 분해하는 과정

1정규형(NF): 원자값으로 구성

2정규형(2NF): 부분 함수 종속 제거

3정규형(3NF): 이행 함수 종속 제거

보이스-코드 정규형(BCNF): 결정자가 후보키가 아닌 함수 종속 제거

4정규형(4NF): 다치(다중 값) 종속성 제거

5정규형(5NF): 조인 종속성 제거

 

(6) 반 정규화

- 반 정규화(De-Normalizaiton) 개념

정규화된 엔터티, 속성, 관계에 대해 성능 향상과 개발 운영의 단순화를 위해 중복, 통합, 분리 등을 수행하는 데이터 모델링 기법

 

- 반 정규화 특징

장점: 반 정규화된 데이터 구조는 성능 향상과 관리의 효율성이 증가함

단점: 데이터의 일관성 및 정합성이 저하됨, 유지를 위한 비용이 별도로 발생하여 성능에 나쁜 영향을 미칠 수 있음

데이터의 일관성과 무결성을 우선으로 할지, 성능과 단순화에 우선순위를 둘 것인지 비교하여 조정하는 과정이 중요함

 

- 반 정규화 기법

테이블

- 테이블 병합:

1:1 관계, 1:M 관계를 통합하여 조인 횟수를 줄여 성능을 향상

슈퍼타입/서브타입 테이블 통합을 통해 성능 향상

 

- 테이블 분할:

테이블을 수직 또는 수평으로 분할

 

- 중복 테이블 추가: 

대량의 데이터들에 대한 집계함수(GROUP BY, SUM 등)를 사용하여 실시간 통계정보를 계산하는 경우에 효과적인 수행을 위해 별도의 통계 테이블을 두거나 중복 테이블을 추가

집계 테이블 추가, 진행 테이블 추가, 특정 부분만을 포함하는 테이블 추가 

 

컬럼

- 컬럼 중복화: 조인 성능 향상을 위한 중복 허용

 

관계

- 중복 관계 추가: 성능 저하를 예방하기 위해 추가적 관계를 맺는 방법

 

 3. 물리 데이터 모델

(1) 데이터베이스 무결성

- 데이터베이스 무결성(Database Integrity) 개념

데이터베이스에 저장된 데이터 값과 그것이 표현하는 현실 세계의 실제 값이 일치하는 성질

데이터 무결성을 유지하는 것은 데이터베이스 관리 시스템(DBMS)의 중요한 기능이며 데이터에 적용되는 연산에 제한을 두어 데이터의 무결성을 유지

 

데이터베이스 무결성 종류

개체 무결성(Entity Integrity): 한 엔티티에서 같은 기본키(PK)를 가질 수 없거나 기본키(PK)의 속성이 NULL을 허용할 수 없는 제약조건 / 기본키(Primary Key), 유니크 인덱스(Unique Index)

참조 무결성(Referential Integrity): 외래키가 참조하는 다른 개체의 기본키에 해당하는 값이 기본키 값이나 NULL이어야 하는 제약조건 / 외래키(Foreign Key)

*제한(Restricted): 참조 무결성 원칙을 위배하는 연산을 거절하는 옵션

*연쇄(Cascade): 참조되는 릴레이션에서 튜플을 삭제하고 이 튜플을 참조하는 튜플들도 함께 삭제하는 옵션

*널 값(Nullify): 참조되는 릴레이션에서 튜플을 삭제하고 참조하는 릴레이션에서 해당 튜플을 참조하는 튜플들의 외래 키에 NULL 값을 넣는 옵션

도메인 무결성(Domain Integrity): 속성의 값은 기본값, NULL 여부, 도메인(데이터 타입, 길이)이 지정된 규칙을 준수해야 하는 제약 조건 / 체크(Check), NULL/NOT NULL, 기본값(DEFAULT)

사용자 무결성(User-Delined Integrity): 사용자의 의미적 요구사항을 준수해야 하는 제약조건 / 트리거(Trigger), 사용자 정의 데이터 타입(User Defined Data Type)

키 무결성(Key Integrity): 한 릴레이션에 같은 키 값을 가진 튜플들을 허용할 수 없는 제약조건 / 유니크(Unique)

 

(2) 키

- 키(Key)의 개념

데이터베이스에서 조건을 만족하는 튜플을 찾거나 순서대로 정렬할 때 다른 튜플들과 구별할 수 있는 기준이 되는 속성

 

- 키 특성

유일성(Uniqueness): 식별자에 의해 엔터티 내에 모든 튜플들을 유일하게 구분하는 특성

최소성(Minimality): 최소한의 속성으로 식별자를 구성하는 특성

 

- 키 종류

기본키(Primary Key): 테이블의 각 튜플들을 고유하게 식별하는 컬럼

대체키(Alternate Key): 후보키 중에서 기본키로 선택되지 않은 키

후보키(Candidate Key): 테이블에서 각 튜플들을 구별하는데 기준이 되는 칼럼, 기본키와 대체키를 합친 키

슈퍼키(Super Key): 릴레이션을 구성하는 모든 튜플에 대해 유일성은 만족하지만 최소성은 만족하지 못하는 키

외래키(Foreign Key): 한 릴레이션의 컬럼이 다른 릴레이션의 기본키로 이용되는 키, 테이블 간의 참조 데이터 무결성을 위한 제약조건

 

(3) 인덱스

인덱스는 검색 연산의 최적화를 위해 데이터베이스 내 열에 대한 정보를 구성한 데이터 구조

 

(4) 파티셔닝

- 파티셔닝(Partitioning) 개념

테이블 또는 인덱스 데이터를 파티션(Partition) 단위로 나누어 저장하는 기법

 

- 파티셔닝(Partitioning) 유형

레인지 파티셔닝(Range Partitioning)

연속적인 숫자나 날짜를 기준으로 하는 파티셔닝 기법

 

해시 파티셔닝(Hash Partitioning)

파티션 키의 해시 함수 값에 의한 파티셔닝 기법

 

리스트 파티셔닝(List Partitioning)

특정 파티션에 저장될 데이터에 대한 명시적 제어가 가능한 파티셔닝 기법

분포도가 비슷하고 데이터가 많은 SQL에서 컬럼의 조건이 많이 들어 오는 경우 유용하게 사용 가능

 

컴포지트 파티셔닝(Composite Partitioning)

2개 이상의 파티셔닝을 결합하는 파티셔닝 기법

큰 파티션에 대한 I/O 요청을 여러 파티션으로 분산 가능

 

라운드 로빈(Round Robin)

라운드 로빈으로 회전하면서 새로운 행을 파티션에 할당하는 기법

파티션에 행의 고른 분포를 원할 때 사용

* 라운드 로빈: 작업들을 정해진 순서로 차례대로 할당하고 모든 작업이 한 번씩 처리된 후 다시 처음부터 순환하며 작업을 처리하는 방식

 

(5) 데이터베이스 파일 조직 방법

파일의 레코드(Record)를 물리적 저장 장치에 저장하기 위한 배치 방법

데이터 검색 성능 및 처리 효율성에 큰 영향을 줌

 

순차 방법(Sequential Method): 레코드들의 물리적 순서가 그 레코드들의 논리적 순서와 같게 순차적으로 저장하는 방법 구조가 단순하고 구현이 쉬워 일괄처리(Batch Processing)에 적합

인덱스 방법(Index Method): 해당 인덱스를 찾아서 그 인덱스가 가리키는 주소를 따라가 원하는 레코드에 접근할 수 있도록 하는 저장 방법

빠른 검색과 다양한 질의가 가능하며 키 값과 주소 쌍으로 구성된 인덱스 파일을 별도로 유지해야 함

해싱 방법(Hashing Method): 해싱 함수(Hash Function)를 이용해 키 값을 직접 주소로 변환하여 레코드에 접근하는 방법

다른 레코드를 참조하지 않고 바로 접근 가능

 

chapter 02

1. 데이터베이스 종류

(1) 데이터베이스

- 데이터베이스(DB; Database) 개념

다수의 인원, 시스템 또는 프로그램이 사용할 목적으로 통합하여 관리되는 데이터의 집합

자료의 중복성제거, 무결성 확보, 일관성 유지, 유용성 보장이 중요

 

- 데이터베이스 정의

통합된 데이터(Integrated Data): 자료의 중복을 배제한 데이터의 모임

저장된 데이터(Stored Data): 저장 매체에 저장된 데이터

운영 데이터(Operational Data): 조직의 업무를 수행하는 데 필요한 데이터

공용 데이터(Shared Data): 여러 애플리케이션, 시스템들이 공동으로 사용하는 데이터

 

- 데이터베이스 특성

실시간 접근성(Real-Time Accessibility): 쿼리에 대하여 실시간 응답이 가능해야 한다는 특성

계속적인 변화(Continuous Evolution): 새로운 데이터의 삽입, 삭제, 갱신으로 항상 최선의 데이터를 유지한다는 특성

동시 공용(Concurrent Sharing): 다수의 사용자가 동시에 같은 내용의 데이터를 이용할 수 있어야 한다는 특성

내용 참조(Content Reference): 데이터베이스에 있는 데이터를 참조할 때 데이터 레코드의 주소나 위치에 의해서가 아니라 사용자가 요구하는 데이터 내용으로 데이터를 찾아야 한다는 특성

 

- DBMS(Database Management System) 개념

데이터 관리의 복잡성을 해결하는 동시에 데이터 추가, 변경, 검색, 삭제 및 백업, 복구, 보안 등의 기능을 지원하는 소프트웨어

 

(2) 데이터베이스 저장 기술

데이터 웨어하우스

- 데이터 웨어하우스(DW: Data Warehouse) 개념

사용자의 의사결정에 도움을 주기 위하여 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스

 

- 데이터 웨어하우스 특징

주제 지향적(Subject Oriented): 기능이나 업무가 아닌 주제 중심적으로 구성되는 특징

통합적(Integrated): 데이터의 일관성을 유지하면서 전사적 관점에서 하나로 통합되는 특징

시계열적(Timevariant): 시간에 따른 변경을 항상 반영하고 있다는 특징

비휘발적(Non-Volatile): 적재가 완료되면 읽기 전용 형태의 스냅 샷 형태로 존재한다는 특징

 

데이터 마트

- 데이터 마트(DM: Data Mart) 개념

소규모 단위 주제의 데이터 웨어하우스

 

 - 데이터 마트 특징

데이터웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 함

데이터 웨어하우스의 부분이며 대개 특정한 조직 혹은 팀에서 사용하는 것을 목적으로 함

 

- 빅데이터 특성

데이터의 양(Volume): 페타바이트 수준의 대규모 데이터 (분석 규모)

데이터의 다양성(Variety): 정형, 비정형, 반정형의 다양한 데이터 (자원 유형)

데이터의 속도(Velocity): 빠르게 증가하고 수집되며, 처리되는 데이터 (수집, 분석, 활용 속도)

 

(3) 하둡

하둡(Hadoop) 개념

하둡은 오픈 소스를 기반으로 한 분산 컴퓨팅 플랫폼

일반 PC급 컴퓨터들로 가상화된 대형 스토리지를 형성하고 그 안에 보관된 거대한 데이터 세트를 병렬로 처리할 수 있도록 개발된 자바 소프트웨어 프레임워크

 

하둡 주요 기술

데이터 수집

- ETL(Extract Transform Load): 데이터를 DW, DM으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술

- 플럼(Flume): 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트(Event)와 에이전트(Agent)를 활용하는 기술

- 스쿱(Sqoop): 커넥터(Connector)를 사용하여 관계형 데이터베이스 시스템(RDBMS)에서 하둡 파일 시스템(HDFS)으로 데이터를 수집하거나 하둡 파일 시스템에서 관계형 데이터베이스로 데이터를 보내는 기술

- 스크래파이(Scrapy): 파이썬 언어 기반의 비정형 데이터 수집 기술

분산 데이터 저장

- HDFS(Hadoop Distributed File System): 대용량 데이터의 집합을 처리하는 응용 프로그램에 적합하도록 설계된 하둡 분산 파일 시스템

- 분산데이터 처리

- 맵 리듀스(Map Reduce): 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년에 발표한 소프트웨어 프레임워크

 

NoSQL

- NoSQL(Not Only SQL)의 개념

전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인(Join) 연산을 사용할 수 없으며 수평적으로 확장이 가능한 DBMS

 

- NoSQL의 특성(BASE)

Basically Available: 언제든지 데이터는 접근할 수 있어야 하는 속성, 분산 시스템이기 때문에 항상 가용성 중시

Soft-State: 노드의 상태는 내부에 포함된 정보에 의해 결정되는 것이 아니라 외부에서 전송된 정보를 통해 결정되는 속성, 특정 시점에서는 데이터의 일관성이 보장되지 않음

Eventually Consistency: 일정 시간이 지나면 데이터의 일관성이 유지되는 속성, 일관성을 중시하고 지향

 

- NoSQL의 유형

Key-Value Store: Unique한 Key에 하나의 Value를 가지고 있는 형태, 키 기반 Get/Put/Delete 제공하는 빅데이터 처리 기능 DB

Column Family Data Store: Key 안에(Column, Value) 조합으로 된 여러 개의 필드를 갖는 DB, 테이블 기반/조인 미지원/컬럼 기반/구글의 Bigtable 기반으로 구현

Document Store: Value의 데이터 타입이 Document라는 타입을 사용하는 DB, Document 타입은 XML, JSON, YAML과 같이 구조화된 데이터 타입으로 복잡한 계층 구조를 표현할 수 있음

Graph Store: 시멘틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터를 표현하는 DB

(Key Col Do G)

* 시멘틱 웹(Sementic Web): 온톨로지를 활용하여 서비스를 기술하고 온톨로지의 의미적 상호 운용성을 이용해서 서비스 검색, 조합, 중재 기능을 자동화하는 웹

* 온톨로지(Ontology): 실세계에 존재하는 모든 개념들과 개념들의 속성, 개념들 간의 관계 정보를 컴퓨터가 이해할 수 있도록 서술해 놓은 지식베이스

 

(4) 데이터 마이닝

ㄱ. 데이터 마이닝(Data Mining) 개념

대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기술

통계분석은 가설이나 가정에 따른 분석, 검증을 하지만 데이터 마이닝은 수리 알고리즘을 활용하여 대규모 데이터에서 의미 있는 정보를 찾아냄

 

ㄴ. 데이터 마이닝 주요 기법

분류 규칙(Classification): 과거 데이터로부터 특성을 찾아내어 분류모형을 만들어 이를 토대로 새로운 레코드의 결과 값을 예측하는 기법

연관 규칙(Association): 데이터 안에 존재하는 항목들 간의 종속 관계를 찾아내는 기법

연속 규칙(Sequence): 연관 규칙에 시간 관련 정보가 포함된 형태의 기법

데이터 군집화(Clustering): 대상 레코드들을 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업으로 분류규칙(Classification)과 유시

 

(5) 데이터 관련 용어

텍스트 마이닝(Text Mining): 대량의 텍스트 데이터로부터 패턴 또는 관계를 추출하여 의미 있는 정보를 찾아내는 기법

웹 마이닝(Web Mining): 웹으로부터 얻어지는 방대한 양의 정보로부터 유용한 정보를 찾아내기 위하여 분석하는 기법

다크 데이터(Dark Data): 수집된 후 저장은 되어있지만 분석에 활용되지는 않는 다량의 데이터

메타 데이터(Meta Data): 일련의 데이터를 정의하고 설명해주는 데이터, 구축할 정보 자원을 기술하는 데이터

디지털 아카이빙(Digital Archiving): 지속적으로 보존할 가치를 가진 디지털 객체를 장기간 관리하여 이후의 이용을 보장할 수 있도록 변환, 압축 저장하여 DB화하는 작업

마이 데이터(MyData): 정보 주체가 기관으로부터 자기 정보를 직접 내려받아 이용하거나 제3자 제공을 허용하는 방식으로 정보 주체 중심의 데이터 활용 체계

개인이 정보 관리의 주체가 되어 능동적으로 본인의 정보를 관리하고 본인의 의지에 따라 신용및 자산관리 등에 정보를 활용하는 일련의 과정

 

 

 

 

 

728x90
반응형