ETL
-
mysql partition 활용(데이터 컷팅)mysql 2019. 2. 14. 11:44
1.현황 - log관련 테이블중 abc_xxx_log 과 같은 대용량 테이블(mysql기준 수십~수백GB)들은 조건절 컬럼에 인덱스가 있어도 일정구간 이상을 탐색하면 full scan 을 하고 있어 ETL시 mysql 부하 경감 및 수행시간 단축이 필요해보임. - mysql의 abc_xxx_log 테이블은 1일 조회시에만 인덱스를 사용하고 2일 이상 부터 인덱스를 사용안하고 있음 (ETL재처리등도 있어서 2일정도는 해야하는 상황을 가정) - mysql에서 보관주기(2주)를 지키기 위해 delete 구문으로 처리되고 있음(로그데이터 생성팀 혹은 개인) - abc_xxx_log 이관작업은(2일기준) 20분이상 수행 - 스트리밍으로 이관을해야하는데 전체 스캔을 하다보니 수분~수십분 정도 대기하다 fetch를 ..
-
탈렌드 인스톨 가이드 목차talend/Talend Studio의 사용방법 2017. 3. 13. 16:09
목차 서문 1. 일반정보 1.1. 목적 1.2. 대상 1.3. 표기 방법 1. Talend 제품을 설치하기 전에 1.1. 설치 요구 사항 1.2. Studio와 관련된 전제 조건 1.2.1 데이터베이스 클라이언트 소프트웨어 설치 (벌크 모드 용) 1.2.2. XULRunner 패키지 설치 (Linux 사용자 용) 1.3. 호환 플랫폼 및 Java 환경 2. Talend Studio를 처음 설치 2.1. Talend Studio 다운로드 및 설치 2.2. Talend Studio의 시작 2.2.1. Studio의 시작 2.3. Talend Studio 설정 2.3.1. 필요한 외부 모듈을 검사 2.3.2. 외부 모듈 설치 3. Talend 제품의 업그레이드 3.1. 환경의 백업 3.2. Studio에서 T..
-
Talend Studio의 중요한 개념들talend/Talend Studio의 사용방법 2017. 3. 7. 16:51
repository : 사용자가 비즈니스 모델의 기술 또는 설계작업 등을 모두 저장하는곳 project : 프로젝트는 기술적인 아이템과 그와 관련된 메타 데이터의 구조 집합 repository에서 필요한만큼의 프로젝트를 만들 수 있다 workspace : 프로젝트 폴더를 저장하는 디렉토리다. Job : 하나 이상의 component가 서로 연결된 그래픽 디자인 데이터 작업후에 디버깅 및 실행해 볼 수 있음 component : 통합 데이터 소스가 어떠한 데이터베이스,플랫 파일, Web 서비스 등... 에 관계없이 특정 데이터 통합 작업을 수행하는 데 사용 되는 사전 설정된것들. 여러 이기종 소스 데이터를 이관해야 하는 코딩의 양을 가장 감소시킨다. item : 프로젝트의 기본이되는 기술적인 단위(비지니스..