-
실습환경_세번째(부제: 0원으로 구축하는 DIY빅데이터 에코시스템)VERTICA/97.실습환경 2019. 4. 26. 10:43
우선 2019년 8월 31일까지 사용할 계획입니다.대략적인 사양은 다음과 같습니다.
가상 8 cpu(아이브리지) 16G 메모리 disk 100G
무려 3대 클러스터 구성입니다. 후훗.. (데이터는 컬럼단위(압축률아주좋음)로 압축되므로 어느 정도 실습환경이 될 듯)온라인상에서 모든 이들이 이거 하나로 실습하기에는 매우 부족하겠지만 뭐..
버티카를 딱히 아는 사람도 별로 없고 ㅋㅋ
이 정도 사양에서 어느 정도 일처리를 할 수 있는가도 의미가 있어 보입니다.초심자를 위해 만들었으므로. 되도록
툴에서 접속할 수 있는 방법으로 알려드리겠습니다.진행순서는 다음과 같습니다.
1.vertica client 다운로드(무료)
2.dbeaver 다운로드(오픈소스이며 상용으로써도 무료)
3.dbeaver 설정1.vertica client를 다운
https://www.vertica.com/download/vertica/client-drivers/
맨왼쪽에 있는 jdbc 드라이버 vertica-jdbc-x.x.x..jar 파일만 받아도 무방합니다.
두번째 버전 캡처했을 때는 버전이 8.1이었는데 9.2까지 나왔군요. 세월 참...2.dbeaver 다운(오픈소스이므로 무료)
이미 http://vertica.tistory.com/16 여기에도 설명을 드렸지만.
https://dbeaver.io/download/ 에서 다운을 받습니다.세상에.. 안 본사이에 6.0.3까지 나왔네요. 커뮤니티 에디션을
받을 건데 맥과 윈도 사용하시는 OS에 맞게 다운로드하시면 됩니다.
(각자 맞는 비트로 다운받으세요.)설치는 다음다음 다음..... 하시면 됩니다.
3.dbeaver 설정
dbeaver 실행 후 file-> New -> DBeaver -> Database Connection -> 스크롤 내려서.. Vertica ->까지 진행하면 여기까지 나옵니다.
빈칸을 아래와 같이 채워주세요.
Host : 210.114.91.91
Database/Schema : open_vertica
User name : open_vertica
Password : open_vertica1234
해당 계정은 나머지 스키마는 읽기 권한 playground 스키마에서는 테이블도 생성이 가능한 계정입니다.
이것저것 테스트해보시기 바랍니다.이후에 Edit Driver Settings 클릭 후
라이브러리부분에 기본으로 있던 jar파일은 선택 후 delete 하시고 다운로드한 jar파일을 Add File 해줍니다.
진행하시면 아래와 같은 화면을 만나실 겁니다.
(추가적으로 기본 포트는 5433인데 이번에 구성할 때는 포트 포워딩을 해야 할 상황이라 25674 포트를 5433으로 포워딩하였습니다.)돌아와서 Test Connection으로 테스트 후
Success 화면을 만나면 환경설정을 제대로 하신 거라고 보면 됩니다.SQL 에디터 창을 열어 다양한 쿼리 작업을 해주시면 됩니다.
(10억건정도의 데이터를 가지고 있는 테이블인데 단순 count는 1초 미만 조인 + group by 도 3초 정도 걸리므로 테스트하시는 데는 큰 무리는 없어 보입니다.)--데이터적재시 라이선스 확인하기 무료버전에서는 최대 1TB까지 저장
select audit_license_size();select count(*)
from online_sales.ytkim_target_date_segment a ;select b.date
, amount
, cnt
from (
select a.sale_date_key
, sum(a.sales_dollar_amount) amount
, count(*) cnt
from online_sales.ytkim_target a
group by a.sale_date_key
) a
inner join date_dimension b on a.sale_date_key = b.date_key
order by 1
; -- 킁 들여쓰기 지못미 ㅜㅜ해당 서버에 다양한 테스트를 해볼 생각인데 그것 때문에 위에 나왔던 것보다 성능이 떨어질 수도 있습니다.
(hadoop, kudu, vertica 성능 테스트)성능 및 기능 비교를 위해 앞으로 더 해볼 것 들은..
스토리지가 허락하는 범위에서 약 10억 건에서 1조건 이내의 데이터로 다양한 테스트를 진행하려고 합니다.
0.vertica 성능 측정 및 시나리오 작성 (아마도 이게 제일빠를거라..)
1.임팔라+ hdfs 기능&성능 테스트
2.임팔라+ kudu 기능&성능테스트
3.hive+ hdfs 기능&성능테스트
이를위해 구성해야 할 것 들은.하둡 에코시스템 설치 : 하둡, 임팔라, 하이브, 스쿱, 카프카, 주키퍼
버티카 에코시스템 설치 및 ETL구성 : 버티카, Talend(GUI ETL오픈소스), VNC Server, Dbeaver
시각화 설치 : Metabase, Wordpress
각 빅데이터 시스템에 데이터셋 구성
각 빅데이터 시스템 간 데이터 이동 구성
예상 시나리오 쿼리작성
성능테스트
시각화(BI)하.. 적다 보니.. 다 못 할 수도....
'VERTICA > 97.실습환경' 카테고리의 다른 글
간만에 다시만들어 보는 실습 환경 (0) 2018.10.30 버티카 접속정보 공유 (0) 2017.09.06 댓글