VERTICA
-
Vertica 에서 Kmeans 수행하기VERTICA/10.Machine Learning 2016. 12. 27. 18:56
K-평균 알고리즘(K-means algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 이 알고리즘은 자율 학습의 일종으로, 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다. (위키백과 참조 : https://ko.wikipedia.org/wiki/K-%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 ) 실습대상데이터 iris 아이리스는 붓꽃에 대한 꽃받침,꽃잎의(길이,너비) 정보 데이터가 들어있다. 꽃받침과 꽃잎이 무었인지 아리까리하다면.. 여기에서 잠깐확인하시거나 포털검색을.. -> http://withbook.tistory.com/426 ir..
-
EXPORT TO VERTICAVERTICA/09. SQL 2016. 12. 20. 12:35
오랜만에 글을쓰는듯.. EXPORT TO VERTICA : 버티카(소스) -> 버티카(타겟)간 데이터 이관 시에 사용한다(반대는 copy from) 문법 은 아래와 같다. EXPORT TO VERTICA database.[dest-schema.]dest-table ... [(dest-column [,dest-column2,...])] ... { AS SELECT select-expression ... | FROM [source-schema.]source-table ... [(source-column [,source-column2,...])]}; 대략적인 수행방법은 아래와 같다. /opt/vertica/bin/vsql -v AUTOCOMMIT=on -c "connect to VERTICA 접속할db명 US..
-
버티카 성능 진단VERTICA/06. Tuning 2016. 12. 14. 12:50
버티카 모니터링할때 어느부분에서 자원을 많이 쓰는지 확인이 가능하다.일부 원천 데이터자체가 부정확하긴하지만 어디에서 문제가 있는지 감을 잡는데는 도움을 줄 것이다. SELECT substr(current_statement,1,100) as '수행SQL' , eep.path_id , eep.operator_name , eep.TRANSACTION_id , eep.STATEMENT_id --, node_name , count(DISTINCT operator_id) num_operators , count(DISTINCT eep.node_name) num_nodes , round(sum(DECODE(counter_name, 'bytes received', counter_value, NULL))/1024^2,2)..
-
ActivePartitionCount 란 무엇인가?VERTICA/04. Admin 관리 2016. 6. 17. 12:03
ActivePartitionCount 란? 매뉴얼에서는... 이렇게 설명되어있다 Sets the number of partitions, called active partitions, that are currently being loaded. For information about how the Tuple Mover treats active (and inactive) partitions during a mergeout operation, see Understanding the Tuple Mover. Default Value: 1 Example: SELECT SET_CONFIG_PARAMETER ('ActivePartitionCount', 2); 모호하다 모호해.. 파티션 테이블에 만 적용되는 파라메터 이며..
-
RESOURCE POOL 관리VERTICA/04. Admin 관리 2016. 6. 2. 18:10
버티카에는 자원효율화를 위해 RESOURCE POOL 이란 개념을 도입하였고 활용방안은 중요하지 않은 업무 혹은 자원 과다사용에 제한을 두기위한 작업에 사용하면 될거 같습니다. SyntaxCREATE RESOURCE POOL pool-name자주쓰는 옵션 위주로 기술 해 보겠습니다. OPTION MEMORYSIZE : Resource Pool의 메모리 크기 MAXMEMORYSIZE : 최대 사용 가능한 메모리 크기 QUEUETIMEOUT : Queue에 대기할 경우 대기하는 시간(s) PLANNEDCONCURRENCY : 하나의 appl이 사용할 수 있는 Resource Pool 내의 메모리 크기 MAXCONCURRENCY : 동시에 실행되는 Appl의 개수 보통 RESOURCE POOL 을 생성하고 해..
-
권한VERTICA/04. Admin 관리 2016. 6. 2. 17:12
항목 작업 내용 필요한 권한 데이터베이스 CREATE DATABASE ※ "Management Console" 또는 "Administration Tools"을 이용하여 만듭니다. 슈퍼 유저 만 가능 DROP DATABASE ※ "Management Console" 또는 "Administration Tools"을 이용하여 삭제합니다. 슈퍼 유저 만 가능 ALTER DATABASE 슈퍼 유저 만 가능 스키마 CREATE SCHEMA 데이터베이스의 CREATE 권한 DROP SCHEMA 스키마의 소유자 ALTER SCHEMA RENAME 데이터베이스의 CREATE 권한 테이블 CREATE TABLE 스키마의 CREATE 권한 테이블 만들 때 순서를 이용하기 위해서는 시퀀스 권한이 있어야합니다. 시퀀스의 SEL..
-
Projection : sort key의 중요성VERTICA/03. Architecture 2016. 6. 1. 17:42
오늘은 Projection 특징중에서 sort 부분을 이야기 하겠습니다. 그림을 잘보면.. 짙은 녹색으로 칠해진 컬럼이 sort 된 컬럼입니다. 하나의 논리 Table에 여러개 Proejction 을 만들수 있다고 http://vertica.tistory.com/13 여기서 언급했었습니다. 결론적으로 sort 키 선정을 잘하면 IO를 효율적으로 줄여 줄 수 있습니다. 다시 그림으로 보면.. 성별+클래스+등급으로 sort 하였습니다. 컬럼전체를 읽는것이 아니고 필요한 부분만 읽게되어 조건절 혹은 group by 혹은 join 조건에 들어가게된다면 그에 맞는 sort 키를 선정하는것이 중요합니다. 위와 같이 Projection에 sort를 잘 지정하면 범위가 제한된 조건을 효율적으로 처리 할 수 있습니다..