ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 실습환경_세번째(부제: 0원으로 구축하는 DIY빅데이터 에코시스템)
    VERTICA/97.실습환경 2019. 4. 26. 10:43


    우선 2019년 8월 31일까지 사용할 계획입니다. 

    대략적인 사양은 다음과 같습니다.
    가상 8 cpu(아이브리지) 16G 메모리  disk 100G
    무려 3대 클러스터 구성입니다. 후훗.. (데이터는 컬럼단위(압축률아주좋음)로 압축되므로 어느 정도 실습환경이 될 듯)

    온라인상에서 모든 이들이 이거 하나로 실습하기에는 매우 부족하겠지만 뭐..
    버티카를 딱히 아는 사람도 별로 없고 ㅋㅋ 
    이 정도 사양에서 어느 정도 일처리를 할 수 있는가도 의미가 있어 보입니다.

    초심자를 위해 만들었으므로. 되도록
    툴에서 접속할 수 있는 방법으로 알려드리겠습니다.

    진행순서는 다음과 같습니다.
    1.vertica client 다운로드(무료)
    2.dbeaver 다운로드(오픈소스이며 상용으로써도 무료)
    3.dbeaver 설정

    1.vertica client를 다운
    https://www.vertica.com/download/vertica/client-drivers/
    맨왼쪽에 있는 jdbc 드라이버 vertica-jdbc-x.x.x..jar 파일만 받아도 무방합니다.
    두번째 버전 캡처했을 때는 버전이 8.1이었는데 9.2까지 나왔군요. 세월 참...

     

    Client Drivers 9.2.x | Vertica

    Client Drivers Vertica 9.1.x   Vertica 9.0.x   Vertica 8.1.x   Vertica 8.0.x   Vertica 7.2.x Vertica 7.1.x

    www.vertica.com

     

     

    2.dbeaver 다운(오픈소스이므로 무료)
    이미 http://vertica.tistory.com/16 여기에도 설명을 드렸지만.
    https://dbeaver.io/download/ 에서 다운을 받습니다.

     

    세상에.. 안 본사이에 6.0.3까지 나왔네요. 커뮤니티 에디션을
    받을 건데  맥과 윈도 사용하시는 OS에 맞게 다운로드하시면 됩니다.
    (각자 맞는 비트로 다운받으세요.)

    설치는  다음다음 다음..... 하시면 됩니다.

    3.dbeaver 설정
    dbeaver 실행 후 file-> New -> DBeaver -> Database Connection -> 스크롤 내려서.. Vertica ->

     

    까지 진행하면 여기까지 나옵니다.

    빈칸을 아래와 같이 채워주세요.

    Host : 210.114.91.91
    Database/Schema : open_vertica
    User name : open_vertica
    Password : open_vertica1234
    해당 계정은 나머지 스키마는 읽기 권한 playground 스키마에서는 테이블도 생성이 가능한 계정입니다.
    이것저것 테스트해보시기 바랍니다.

     

    이후에 Edit Driver Settings 클릭 후
    라이브러리부분에 기본으로 있던 jar파일은 선택 후 delete 하시고 다운로드한 jar파일을 Add File 해줍니다.
    진행하시면 아래와 같은 화면을 만나실 겁니다.
    (추가적으로 기본 포트는 5433인데 이번에 구성할 때는 포트 포워딩을 해야 할 상황이라 25674 포트를 5433으로 포워딩하였습니다.)

     

    돌아와서 Test Connection으로 테스트 후 
    Success 화면을 만나면 환경설정을 제대로 하신 거라고 보면 됩니다.

    SQL 에디터 창을 열어 다양한 쿼리 작업을 해주시면 됩니다.
    (10억건정도의 데이터를 가지고 있는 테이블인데 단순 count는 1초 미만 조인 + group by 도 3초 정도 걸리므로 테스트하시는 데는 큰 무리는 없어 보입니다.) 

     

    --데이터적재시 라이선스 확인하기 무료버전에서는 최대 1TB까지 저장
    select audit_license_size();

    select count(*) 
      from online_sales.ytkim_target_date_segment a ;

    select b.date 
         , amount
         , cnt
      from (
    select a.sale_date_key 
         , sum(a.sales_dollar_amount) amount
         , count(*) cnt
      from online_sales.ytkim_target a 
      group by a.sale_date_key 
    ) a  
     inner join date_dimension b on a.sale_date_key = b.date_key
     order by 1
    ;  -- 킁 들여쓰기 지못미 ㅜㅜ

    해당 서버에 다양한 테스트를 해볼 생각인데 그것 때문에 위에 나왔던 것보다 성능이 떨어질 수도 있습니다.
    (hadoop, kudu, vertica 성능 테스트)

    성능 및 기능 비교를 위해 앞으로 더 해볼 것 들은..
    스토리지가 허락하는 범위에서 약 10억 건에서 1조건 이내의 데이터로 다양한 테스트를 진행하려고 합니다. 
    0.vertica 성능 측정 및 시나리오 작성 (아마도 이게 제일빠를거라..)
    1.임팔라+ hdfs 기능&성능 테스트 
    2.임팔라+ kudu 기능&성능테스트
    3.hive+ hdfs 기능&성능테스트

    이를위해 구성해야 할 것 들은.

    하둡 에코시스템 설치 : 하둡, 임팔라, 하이브, 스쿱, 카프카, 주키퍼
    버티카 에코시스템 설치 및 ETL구성 : 버티카,  Talend(GUI ETL오픈소스), VNC Server, Dbeaver
    시각화 설치 : Metabase, Wordpress 
    각 빅데이터 시스템에 데이터셋 구성
    각 빅데이터 시스템 간 데이터 이동 구성 
    예상 시나리오 쿼리작성
    성능테스트
    시각화(BI)

    하.. 적다 보니.. 다 못 할 수도....

     

     

     

     

     

     

    'VERTICA > 97.실습환경' 카테고리의 다른 글

    간만에 다시만들어 보는 실습 환경  (0) 2018.10.30
    버티카 접속정보 공유  (0) 2017.09.06

    댓글

Designed by Tistory.