Skip to content
- 데이터 전환이란 : 원천의 데이터베이스, 파일, 문서로부터 목적 데이터베이스 구축에 필요한 데이터를 추출하고 목적 시스템의 데이터 모델에 적합하게 변환, 정제하여 목적 데이터베이스에 적재한 후 그 결과를 검증하여 운영 가능한 데이터베이스를 구축하는 능력
- 초기 데이터 구축
- 구축 전략 수립
- 구축 대상 파악
- 구축 범위 확정
- ETL(Extraction, Transformation, Loading)
- 소스로부터 분석을 위한 저장소로 이동시키는 프로세스
- 방법
- 추출(Extraction)
- 변환(Transformation)
- 적재(Loading)
- 파일 처리 기술
- 정의 : 많은 양의 자료를 각종 매체에 저장하는 기법
- 순차파일(Sequential File)
- 정의
- 논리적인 순서에 따라 물리적 연속 공간에 순차적으로 기록
- 급여관리와 같이 변동 사항이 크지 않고 기간별로 일괄 처리를 주로하는 경우에 적합
- 자기테이프에서 사용됨
- 장점
- 기록 밀도가 높아 기억공간을 효율적으로 사용
- 매체 변환이 쉬워 어떠한 매체에도 적용 가능
- 기록시 저장된 키 순서대로 레코드를 처리할 때 가장 빠른 속도
- 단점
- 새로운 레코드를 삽입, 삭제시 처리시간이 많이 소요
- 데이터 검색시 순차적으로 검색하기 때문에 효율이 낮음
- 색인 순차 파일(Indexed Sequential File)
- 정의
- 순차 처리와 랜덤 처리가 모두 가능하도록 키 순서로 기록하고 키의 색인을 구성
- 색인을 위한 순차적 접근 방법 제공
- ISAM(Index Sequential Access Method)라고도 함
- 레코드를 참조할 때 색인을 탐색한 후 색인이 가리키는 포인터(주소)를 사용하여 직접 참조
- 일반적으로 자기 디스크에 많이 사용, 자기 테이프는 사용 불가
- 장점
- 순차 처리, 랜덤 처리 모두 가능, 융통성있게 처리
- 효율적인 검색이 가능하고 레코드의 삽입, 삭제, 갱신이 용이
- 단점
- 색인 구역과 오버플로 구역을 구성하이 위한 추가 기억공간 필요
- 파일이 정렬되어 있어야 하므로, 추가, 삭제가 많으면 효율이 떨어짐
- 색인을 이용한 액세스를 하기 때문에 액세스 시간이 랜덤 편성 파일보다 느리다.
- VSAM 파일(Virtual Storage Access Method)
- 정의 : 동적 인덱스를 이용한 색인 순차 파일
- 동적 인덱스 : 데이터파일을 저장하는 블록에 추가적인 삽입을 감안하여 빈 공간을 준비
- 정적 인덱스 : 레코드가 삽입되어도 인덱스 구조가 변하지 않는 인덱스 방법
- 직접 파일(Direct File)
- 정의
- 특정 순서 없이 임의의 물리적 공간에 기록
- 랜덤 파일, DAM(Direct Access Method) 파일이라고도 함
- 레코드에 특정 기준으로 키가 할당되며, 해시 함수(Hash Function)을 이용하여 주소 계산
- 자기 디스크나 자기 드럼 사용
- 장점
- 물리적 주소를 통하여 접근, 기록할 수 잇어 순서에는 제약이 없다
- 접근 시간이 빠르고 레코드의 삽입, 삭제, 갱신이 용이
- 어떤 레코드라도 평균 접근 시간(Access Time)내에 검색 가능
- 단점
- 레코드의 주소 변환 과정이 필요하여 추가 시간 소요
- 기억 공간의 효율이 저하될 수 있다
- 기억장치의 물리적 구조에 대한 지식이 필요하고, 프로그램이 복잡해진다
- 충돌이 발생할 염려가 있으므로 이를 위한 기억 공간 확보 필요
- 데이터 전환 수행
- 데이터 전환 수행 계획
- 체크 리스트
- 데이터 검증
- 추출 후 검증
- 전송 검증
- 전환 검증
- 적재 검증
- 통합 검증
- 데이터 정제
- 단계별 데이터 정제 방안
- 1단계(전환 테스트 전)
- 2단계(전환 테스트 시)
- 3단계(최종 전환)
- 데이터 품질 분석
- 원천 데이터 품질 분석
- 목적 데이터 품질 분석
- 오류 데이터 측정
- 정상 데이터와 오류 데이터를 정량적으로 측정
- 오류 원인을 파악및 정제 여부 결정
error: Content is protected !!