1. 데이터 전환이란 : 원천의 데이터베이스, 파일, 문서로부터 목적 데이터베이스 구축에 필요한 데이터를 추출하고 목적 시스템의 데이터 모델에 적합하게 변환, 정제하여 목적 데이터베이스에 적재한 후 그 결과를 검증하여 운영 가능한 데이터베이스를 구축하는 능력
  2. 초기 데이터 구축
    1. 구축 전략 수립
    2. 구축 대상 파악
    3. 구축 범위 확정
  3. ETL(Extraction, Transformation, Loading)
    1. 소스로부터 분석을 위한 저장소로 이동시키는 프로세스
    2. 방법
      1. 추출(Extraction)
      2. 변환(Transformation)
      3. 적재(Loading)
  4. 파일 처리 기술
    1. 정의 : 많은 양의 자료를 각종 매체에 저장하는 기법
    2. 순차파일(Sequential File)
      1. 정의
        1. 논리적인 순서에 따라 물리적 연속 공간에 순차적으로 기록
        2. 급여관리와 같이 변동 사항이 크지 않고 기간별로 일괄 처리를 주로하는 경우에 적합
        3. 자기테이프에서 사용됨
      2. 장점
        1. 기록 밀도가 높아 기억공간을 효율적으로 사용
        2. 매체 변환이 쉬워 어떠한 매체에도 적용 가능
        3. 기록시 저장된 키 순서대로 레코드를 처리할 때 가장 빠른 속도
      3. 단점
        1. 새로운 레코드를 삽입, 삭제시 처리시간이 많이 소요
        2. 데이터 검색시 순차적으로 검색하기 때문에 효율이 낮음
    3. 색인 순차 파일(Indexed Sequential File)
      1. 정의
        1. 순차 처리와 랜덤 처리가 모두 가능하도록 키 순서로 기록하고 키의 색인을 구성
        2. 색인을 위한 순차적 접근 방법 제공
        3. ISAM(Index Sequential Access Method)라고도 함
        4. 레코드를 참조할 때 색인을 탐색한 후 색인이 가리키는 포인터(주소)를 사용하여 직접 참조
        5. 일반적으로 자기 디스크에 많이 사용, 자기 테이프는 사용 불가
      2. 장점
        1. 순차 처리, 랜덤 처리 모두 가능, 융통성있게 처리
        2. 효율적인 검색이 가능하고 레코드의 삽입, 삭제, 갱신이 용이
      3. 단점
        1. 색인 구역과 오버플로 구역을 구성하이 위한 추가 기억공간 필요
        2. 파일이 정렬되어 있어야 하므로, 추가, 삭제가 많으면 효율이 떨어짐
        3. 색인을 이용한 액세스를 하기 때문에 액세스 시간이 랜덤 편성 파일보다 느리다.
    4. VSAM 파일(Virtual Storage Access Method)
      1. 정의 : 동적 인덱스를 이용한 색인 순차 파일
        1. 동적 인덱스 : 데이터파일을 저장하는 블록에 추가적인 삽입을 감안하여 빈 공간을 준비
        2. 정적 인덱스 : 레코드가 삽입되어도 인덱스 구조가 변하지 않는 인덱스 방법
    5. 직접 파일(Direct File)
      1. 정의
        1. 특정 순서 없이 임의의 물리적 공간에 기록
        2. 랜덤 파일, DAM(Direct Access Method) 파일이라고도 함
        3. 레코드에 특정 기준으로 키가 할당되며, 해시 함수(Hash Function)을 이용하여 주소 계산
        4. 자기 디스크나 자기 드럼 사용
      2. 장점
        1. 물리적 주소를 통하여 접근, 기록할 수 잇어 순서에는 제약이 없다
        2. 접근 시간이 빠르고 레코드의 삽입, 삭제, 갱신이 용이
        3. 어떤 레코드라도 평균 접근 시간(Access Time)내에 검색 가능
      3. 단점
        1. 레코드의 주소 변환 과정이 필요하여 추가 시간 소요
        2. 기억 공간의 효율이 저하될 수 있다
        3. 기억장치의 물리적 구조에 대한 지식이 필요하고, 프로그램이 복잡해진다
        4. 충돌이 발생할 염려가 있으므로 이를 위한 기억 공간 확보 필요
  5. 데이터 전환 수행
    1. 데이터 전환 수행 계획
    2. 체크 리스트
    3. 데이터 검증
      1. 추출 후 검증
      2. 전송 검증
      3. 전환 검증
      4. 적재 검증
      5. 통합 검증
  6. 데이터 정제
    1. 단계별 데이터 정제 방안
      1. 1단계(전환 테스트 전)
      2. 2단계(전환 테스트 시)
      3. 3단계(최종 전환)
    2. 데이터 품질 분석
      1. 원천 데이터 품질 분석
      2. 목적 데이터 품질 분석
    3. 오류 데이터 측정
      1. 정상 데이터와 오류 데이터를 정량적으로 측정
      2. 오류 원인을 파악및 정제 여부 결정
error: Content is protected !!