BIGDATA
-
mysql partition 활용(데이터 컷팅)mysql 2019. 2. 14. 11:44
1.현황 - log관련 테이블중 abc_xxx_log 과 같은 대용량 테이블(mysql기준 수십~수백GB)들은 조건절 컬럼에 인덱스가 있어도 일정구간 이상을 탐색하면 full scan 을 하고 있어 ETL시 mysql 부하 경감 및 수행시간 단축이 필요해보임. - mysql의 abc_xxx_log 테이블은 1일 조회시에만 인덱스를 사용하고 2일 이상 부터 인덱스를 사용안하고 있음 (ETL재처리등도 있어서 2일정도는 해야하는 상황을 가정) - mysql에서 보관주기(2주)를 지키기 위해 delete 구문으로 처리되고 있음(로그데이터 생성팀 혹은 개인) - abc_xxx_log 이관작업은(2일기준) 20분이상 수행 - 스트리밍으로 이관을해야하는데 전체 스캔을 하다보니 수분~수십분 정도 대기하다 fetch를 ..
-
I/O STAT 예시Oracle/AWR시계열로보기 2019. 1. 24. 17:10
2011년쯤에 작성했었는데. (그이후로 오라클을 못만진 주륵ㅜ... 내 커리어 어쩔...)0원으로 AWR 모니터링을 할 수 있게끔 그럴 싸 한 걸 만들었지만 클라우드 사용요금 압박때문에.. (기존에는 워드프레스 다시 한다면 메타베이스로 ㅎㅎ)여튼 이런식으로 쿼리로도 출력이 가능하므로 특정 snap_id 델타 값을 갖는 데이터들은 시계열 분석도 가능하다. 단순 시계열 통계로 차트(구글차트등을 이용하여)보기는 당연 가능 할 것이고.분석쪽으로 좀 더 배우신분들은 해당 데이터로 머신러닝등을 활용해서 더 좋은 인사이트를 찾지 않을까 싶다. with base as ( select snap_id , instance_number , function_name , sum(small_read_megabytes) small_..
-
버티카 프로젝션과 OS 물리적 영역간 매핑 방법VERTICA/04. Admin 관리 2019. 1. 23. 16:52
메모리 영역(wos) + 디스크 영역(ros) 의 테이블 및 프로젝션 매핑확인 쿼리 select a.node_name , a.schema_name , p.anchor_table_name , 'ls -lrt '||d.location_path||'/'||substring(a.storage_oid::varchar,15,17)||'/'||a.sal_storage_id||'*' as proj_full_path , p.projection_name , a.storage_type , a.total_row_count , a.deleted_row_count , a.used_bytes , a.grouping from storage_containers a inner join storage_locations d on a.nod..
-
이기종 데이터 이관없이 융합해서 보기DATA VIRTUALIZATION 2019. 1. 11. 14:35
관련링크 : https://www.denodo.com/en/data-virtualization/overview 테스트내용 : mysql과 vertica간 ETL없이 데이터 join --mysql 에서 수행create table namu_db_stat.temp_ytkim_donedo(id int, age int); insert into namu_db_stat.temp_ytkim_donedovalues (1,30); select * from namu_db_stat.temp_ytkim_donedo; -- Vertica에서 수행create table public.vertica_temp_ytkim_donedo_test( id int, name varchar(200)); insert into public.verti..
-
DremioDATA VIRTUALIZATION 2019. 1. 4. 10:57
데이터는 관계형 데이터베이스, NoSQL 데이터 저장소, 파일 시스템, Hadoop 및 기타 기술을 비롯한 다양한 기술로 관리됨. 데이터의 하위 집합을 관계형 데이터베이스에 로드하는 ETL 파이프 라인은 하나의 해답을 제공하지만 이러한 솔루션이 데이터 엔지니어 및 IT 직원에게는 부담. 그리고 분석가와 데이터 과학자가 사용할 수 있는 시점까지는 일정시간을 기다려야함. https://docs.dremio.com/working-with-datasets/virtual-datasets.html
-
버티카 Eon모드VERTICA/03. Architecture 2018. 12. 24. 14:15
버전9.1 부터 나온것 같은데 아직은 aws에서만 구현이 가능하고(gcp는 s3호환모드가 필요하다고함) 장점은 컴퓨팅영역이 무한확장가능하다는건데... 노드간 global resegment 가 일어나는 쿼리를 수행하면 치명적일 것 같은 느낌같은 느낌이 들지만.. depot이 가야 할 길을 알려줄듯 하다... 그래도 이건 직접 해봐야 알 듯..(http://vertica.tistory.com/39 요런류의 non equi join 녀석들 ) 기존가지고 있던 shared nothing architecture를 반쯤 버린듯...