Data Science/Elasticsearch 썸네일형 리스트형 Elasticsearch 관련 자료 모음 각종 설정법 쿼리 법 정리 해 놓은 곳https://okdevtv.com/mib/elasticsearch Elastic Stack 사용 사례 슬라이드https://www.slideshare.net/kenu/elastic-stack 스타트업들의 신규 서비스 개발에 Elastic Stack이 각광받고 있는 이유https://www.elastic.co/kr/videos/elasticon-seminar-seoul-2016-gs-shop?blade=facebook&hulk=cpc 더보기 Logstash dumping gzipped json file Json 형식으로 된 로그 파일이 엄청나게 많은데 이걸 엘라스틱서치에 올려야할 일이 생겼다.게다가 해당 파일들은 gz 형식으로 압축이 되있어서 바로 Logstash 통해서 올리려니까 안된다. 여기저기 삽질을 해본 결과 몇가지 수정을 해야 한다는 것을 알았다. 우선 Logstash 실행 방법은 아래와 같다 bin/logstash -f conf_file_path --log.level=info -f conf_file_path 는 Logstash 설정 파일 이름이다. 여기에 각종 설정 값을 입력해야 한다.--log.level=info 화면에 로깅 레벨을 결정한다. 때에 따라서 debug 또는 trace를 사용해주자 아무튼 이제 Logstash config 파일을 설정해야 한다.이거는 그냥 내가 따로 작성해서 사.. 더보기 Elasticsearch whole string matching without tokenizer 현재 기록 되어있는 로그의 형태가 워낙 다양한데 처음 데이터 삽입시 엘라스틱 서치는 기본적으로 하이픈(-) 문자는 잘라서 토큰화 시켜서 저장한다는 사실을 몰랐다. 예를 들어 "abcd1-ef2gh-ckal" 이러한 문자를 삽입하면 엘라스틱서치는 이를 자동으로 token = [ "abcd1","ef2gh","ckal"] 이렇게 저장한다는 것이다. 당연하게도 다시 검색 시 전체 스트링 매치를 통해서 검색을 하려고 해도 원하는대로 결과가 안나오는 등 문제가 발생할 수 있다.(일반적인 텍스트 검색이라면 위 같이 토큰화 시켜서 저장하는게 유리할 수 있으나 시리얼 넘버와 같은 경우는 꽤 골치아파지겠다.) 이것 때문에 상당히 많은 시간을 삽질하는데 썼는데 찾은 해결책 몇가지는 다음과 같다. 1. 해당하는 매핑 삭제 .. 더보기 엘라스틱서치로 분석을 해보자 - Intro 엘라스틱서치를 이전부터 로그 저장용으로 사용하고 있었다. 추후 스케일링을 위해서 엘라스틱서치를 선택하고 시범적으로 운영중이었는데 아직까지는 데이터가 아주 많지 않다보니까 파이썬 스크립트를 만들어서 엘라스틱서치에서 로우 데이터를 불러와 엑셀로 저장 후 분석하고 있었다. 당연히 이렇게 사용해봐야 무식한 방법이기 때문에 엘라스틱서치 쿼리를 알아보니까 조건들을 조금만 추가해도 꽤 길어지더라분명 이걸 파이썬으로 쉽게 사용할 수 있는 라이브러리가 있을텐데? 해서 찾아보니까 역시 있음 https://pypi.python.org/pypi/elasticsearch/2.3.0 아직 사용은 안해봤고 좀 더 사용해보고 여기에 다시 정리할 예정 그런데 좀 더 찾아보니까 엘라스틱서치 하둡이라는게 있더라데이터가 많아지고 조건 쿼리.. 더보기 엘라스틱 서치 활용 Elasticsearch 프로젝트에 사용할 일이 있는데 자꾸 까먹어서 필요한대로 업데이트 할 예정 1. 새 인덱스 생성하기curl -XPUT http://elasticsearchAddress/indexName -d '{ "settings" : { "index" : { "number_of_shards" : 5, "number_of_replicas" : 0 } }}' 2. 생성된 인덱스에 맵핑 설정하기 - 이외에 더 많은 세팅을 할 수 있지만 기본적으로 Time을 데이터가 생성되는 시간을 입력받도록 설정하였다. Elasticsearch의 큰 장점중 하나가 Json을 던지면 알아서 맵핑을 설정해준다는 것이지만 기본적으로 시간 정보는 미리 설정해놔야 추후에 스트링과 타임스탬프를 헷갈려하는 일이 없는거 같다. c.. 더보기 이전 1 다음