빅데이터
-
메타베이스 차트 기능METABASE 2019. 2. 14. 16:17
메타베이스 차트기능은 노력대비 퀄리티가 좋다.(개발자가아닌 입장으로서 SQL만으로도 이러한 내용이 나오니..) 예전에 geojson부분에서 metabase와 연동해보면 괜춘하다고 한적이 있다.https://vertica.tistory.com/63 아래는 metabase 에서 서울시 geojson 설정하고 간단하게 구성을 해보았다.(딱히 한것 없이 아래 쿼리만 작성했다. mysql, 버티카는 from dual 을 안써도됨...) select '강서구' as 시군구, 500000 as 판매량 union all select '강남구' as 시군구, 50000 as 판매량 union allselect '강동구' as 시군구, 34000 as 판매량 union allselect '강북구' as 시군구, 40000..
-
mysql partition 활용(데이터 컷팅)mysql 2019. 2. 14. 11:44
1.현황 - log관련 테이블중 abc_xxx_log 과 같은 대용량 테이블(mysql기준 수십~수백GB)들은 조건절 컬럼에 인덱스가 있어도 일정구간 이상을 탐색하면 full scan 을 하고 있어 ETL시 mysql 부하 경감 및 수행시간 단축이 필요해보임. - mysql의 abc_xxx_log 테이블은 1일 조회시에만 인덱스를 사용하고 2일 이상 부터 인덱스를 사용안하고 있음 (ETL재처리등도 있어서 2일정도는 해야하는 상황을 가정) - mysql에서 보관주기(2주)를 지키기 위해 delete 구문으로 처리되고 있음(로그데이터 생성팀 혹은 개인) - abc_xxx_log 이관작업은(2일기준) 20분이상 수행 - 스트리밍으로 이관을해야하는데 전체 스캔을 하다보니 수분~수십분 정도 대기하다 fetch를 ..
-
이기종 데이터 이관없이 융합해서 보기DATA VIRTUALIZATION 2019. 1. 11. 14:35
관련링크 : https://www.denodo.com/en/data-virtualization/overview 테스트내용 : mysql과 vertica간 ETL없이 데이터 join --mysql 에서 수행create table namu_db_stat.temp_ytkim_donedo(id int, age int); insert into namu_db_stat.temp_ytkim_donedovalues (1,30); select * from namu_db_stat.temp_ytkim_donedo; -- Vertica에서 수행create table public.vertica_temp_ytkim_donedo_test( id int, name varchar(200)); insert into public.verti..
-
참조할만한 머신러닝 관련 url들VERTICA/10_1.참조정보 2017. 1. 18. 15:36
머신러닝에 대해 1도 모르고 호기심만 있으니 궁금한내용은 여기에 모아야 겠다. (최대한 실무에 바로쓰일만한 것만) - A/B 테스트를 보완하는 Multi-Armed Bandit(MAB) 알고리즘 :: http://hub.zum.com/kimws/2586 - Markov Process, Markov Chain 마르코프 프로세스, 마르코프 과정, 마코브 과정, 마르코프 모델, 마르코프 연쇄 :: http://www.ktword.co.kr/abbr_view.php?m_temp1=4312 - A/B Testing 도구인 Optimizely 사용법:: https://spoqa.github.io/2013/06/24/about-optimizely.html
-
Vertica Pulse 사전VERTICA/11.Pulse 2017. 1. 5. 18:01
버티카 Pulse는 문장에 대해 감성분석을 지원한다 아래내용은 감성분석을 정밀하게 하기위한 여러가지의 사전 및 매핑정보에 대한 정보이다.현재까지(8.0.1) 버전으로는 영어와 스페인어만 지원한다. 한국은 시장도 매우작고 쓰느데도 별로없으니 안해줄듯 ㅠㅠ white_list_en 항상 특성으로 표시되는 단어. 이 목록은 기본 펄스 특성 검색 프로세스를 나열. white_list 사용자 사전에 항상 점수가 매겨진 단어를 추가. 예를 들어, 이러한 단어들은 펄스에 의해 방해 받지 않는 명사, 구절, 어구 등을 포함할 수 있다. stop_words_en 특성으로 표시되지 않는 단어. stop_words 사용자 사전에 스코어링 하지 않으려는 단어를 추가. 이 사전을 사용하여 분석 대상이 아닌 특성을 필터링. 이 ..
-
Vertica 에서 Kmeans 수행하기VERTICA/10.Machine Learning 2016. 12. 27. 18:56
K-평균 알고리즘(K-means algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다. 이 알고리즘은 자율 학습의 일종으로, 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다. (위키백과 참조 : https://ko.wikipedia.org/wiki/K-%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98 ) 실습대상데이터 iris 아이리스는 붓꽃에 대한 꽃받침,꽃잎의(길이,너비) 정보 데이터가 들어있다. 꽃받침과 꽃잎이 무었인지 아리까리하다면.. 여기에서 잠깐확인하시거나 포털검색을.. -> http://withbook.tistory.com/426 ir..