버티카
-
실습환경_세번째(부제: 0원으로 구축하는 DIY빅데이터 에코시스템)VERTICA/97.실습환경 2019. 4. 26. 10:43
우선 2019년 8월 31일까지 사용할 계획입니다. 대략적인 사양은 다음과 같습니다. 가상 8 cpu(아이브리지) 16G 메모리 disk 100G 무려 3대 클러스터 구성입니다. 후훗.. (데이터는 컬럼단위(압축률아주좋음)로 압축되므로 어느 정도 실습환경이 될 듯) 온라인상에서 모든 이들이 이거 하나로 실습하기에는 매우 부족하겠지만 뭐.. 버티카를 딱히 아는 사람도 별로 없고 ㅋㅋ 이 정도 사양에서 어느 정도 일처리를 할 수 있는가도 의미가 있어 보입니다. 초심자를 위해 만들었으므로. 되도록 툴에서 접속할 수 있는 방법으로 알려드리겠습니다. 진행순서는 다음과 같습니다. 1.vertica client 다운로드(무료) 2.dbeaver 다운로드(오픈소스이며 상용으로써도 무료) 3.dbeaver 설정 1.ve..
-
카프카구성Kafka 2019. 3. 13. 11:18
[broker서버 3대 구성 / zookeeper & kafka 동일서버에 설치]==========================================================================================#주키퍼 설치(3대로 구성 vertica01, vertica02, vertica03)==========================================================================================[java설치]yum -y install java-1.8.0-openjdk [주키퍼 압축해제 및 심볼릭 링크 생성]cd /home/dbadmin/utiltar zxf zookeeper-3.4.10.tar.gzln -s zook..
-
라이젠 젠2가성비하드웨어/cpu 2019. 3. 5. 11:30
라이젠 7 3700X는 12코어 24 스레드를 갖고 있는데 이는 라이젠 7 2700X보다 4코어 8스레드 높은 수준. 3700X는 4.2Ghz 클럭에 5Ghz 부스트 클럭을 자랑한다. 이는 105W TDP의 인텔 8코어 칩과 유사한 속도이다. 3700의 경우 3.8GHz 클럭, 4.6GHz 부스트 클럭을 자랑하며, TDP 95W이다. AMD 라이젠 7 3700X의 미화 가격은370 달러이며, 라이젠 7 3700은 335달러이다. 한국에서도 위의 가격 정도로 풀리면 저렴이(수백~수천만원정도로) 전사 DW구축이 가능할듯하다.이전에기술한 Vertica를 도입할때 과연 고가의 하드웨어가 필요한가? : https://vertica.tistory.com/23 여기도 참조하면 좋을 것 같다. 2019년5월27일자..
-
mysql partition 활용(데이터 컷팅)mysql 2019. 2. 14. 11:44
1.현황 - log관련 테이블중 abc_xxx_log 과 같은 대용량 테이블(mysql기준 수십~수백GB)들은 조건절 컬럼에 인덱스가 있어도 일정구간 이상을 탐색하면 full scan 을 하고 있어 ETL시 mysql 부하 경감 및 수행시간 단축이 필요해보임. - mysql의 abc_xxx_log 테이블은 1일 조회시에만 인덱스를 사용하고 2일 이상 부터 인덱스를 사용안하고 있음 (ETL재처리등도 있어서 2일정도는 해야하는 상황을 가정) - mysql에서 보관주기(2주)를 지키기 위해 delete 구문으로 처리되고 있음(로그데이터 생성팀 혹은 개인) - abc_xxx_log 이관작업은(2일기준) 20분이상 수행 - 스트리밍으로 이관을해야하는데 전체 스캔을 하다보니 수분~수십분 정도 대기하다 fetch를 ..
-
I/O STAT 예시Oracle/AWR시계열로보기 2019. 1. 24. 17:10
2011년쯤에 작성했었는데. (그이후로 오라클을 못만진 주륵ㅜ... 내 커리어 어쩔...)0원으로 AWR 모니터링을 할 수 있게끔 그럴 싸 한 걸 만들었지만 클라우드 사용요금 압박때문에.. (기존에는 워드프레스 다시 한다면 메타베이스로 ㅎㅎ)여튼 이런식으로 쿼리로도 출력이 가능하므로 특정 snap_id 델타 값을 갖는 데이터들은 시계열 분석도 가능하다. 단순 시계열 통계로 차트(구글차트등을 이용하여)보기는 당연 가능 할 것이고.분석쪽으로 좀 더 배우신분들은 해당 데이터로 머신러닝등을 활용해서 더 좋은 인사이트를 찾지 않을까 싶다. with base as ( select snap_id , instance_number , function_name , sum(small_read_megabytes) small_..
-
버티카 프로젝션과 OS 물리적 영역간 매핑 방법VERTICA/04. Admin 관리 2019. 1. 23. 16:52
메모리 영역(wos) + 디스크 영역(ros) 의 테이블 및 프로젝션 매핑확인 쿼리 select a.node_name , a.schema_name , p.anchor_table_name , 'ls -lrt '||d.location_path||'/'||substring(a.storage_oid::varchar,15,17)||'/'||a.sal_storage_id||'*' as proj_full_path , p.projection_name , a.storage_type , a.total_row_count , a.deleted_row_count , a.used_bytes , a.grouping from storage_containers a inner join storage_locations d on a.nod..
-
이기종 데이터 이관없이 융합해서 보기DATA VIRTUALIZATION 2019. 1. 11. 14:35
관련링크 : https://www.denodo.com/en/data-virtualization/overview 테스트내용 : mysql과 vertica간 ETL없이 데이터 join --mysql 에서 수행create table namu_db_stat.temp_ytkim_donedo(id int, age int); insert into namu_db_stat.temp_ytkim_donedovalues (1,30); select * from namu_db_stat.temp_ytkim_donedo; -- Vertica에서 수행create table public.vertica_temp_ytkim_donedo_test( id int, name varchar(200)); insert into public.verti..