기본 콘텐츠로 건너뛰기

[db] elasticsearch란? es 설치 방법

elasticsearch는 분산 검색엔진입니다. 분산 시스템이기 때문에 검색 대상 용량이 증가했을 때 대처하기가 매우 쉽다.
elasticsearch에 대해서 알아보기 전에 elasticsearch가 나온지 꽤 된 저장소이다. 과연 얼마나 최근에 업데이트가 되었는지 github에서 살펴보았는데 최근 커밋 내역이 2분전이다... ㅋㅋㅋㅋ(죄송합니다.)
해당 포스트에서는 0.20 버전을 사용하지만 현재 5.x버전까지 나왔습니다
관계형 데이터베이스 VS elasticsearch 비교
관계형 데이터베이스
elasticsearch
Database
Index
Table
Type
Row
Document
Column
Field
Schema
Mapping
Index
Everything is indexed
SQL
Query DSL
index라는 개념이 관계형에서의 개념이 잡혀있어서 문서에서 index라고 나올 때마다 Database로 딱 안 떠오른다 ㅋㅋ
elasticsearch의 특징은 다음과 같다.
JSON 기반의 스키마 없는 저장소
elasticsearch는 검색엔진이지만 NoSQL처럼 사용가능
Multi-tenancy
하나의 서버안에 여러 인덱스 저장가능. 여러 인덱스의 데이터를 하나의 쿼리로 검색 가능
확장성과 유연성
플러그인을 이용해 기능확장이 용이함. BigDesk, Head를 설치하면 elasticsearch 모니터링 기능을 사용할 수 있게 된다.(직접 사용해보니 플러그인을 설치하는 것이 상당히 쉬움)
분산 저장소
노드 추가의 용이함. 키에 따라 여러 샤드가 구성되는 방식으로 데이터를 분산.인덱스는 각 샤드마다 구성, 각 샤드는 0개 이상의 복제본을 가진다.클러스터가 가동될 때 여러 노드 중 하나의 메타데이터 관리를 위한 마스터 노드로 선출.
elasticsearch 설치하기
다운로드
$ wget http://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-0.20.4.tar.gz $ tar xvzf elasticsearch-0.20.4.tar.gz
서버실행
$ cd elasticsearch-0.20.4 $ bin/elasticsearch -f [2017-05-04 19:07:47,897][INFO ][node ] [Whizzer] {0.20.4}[10109]: initializing ... [2017-05-04 19:07:47,915][INFO ][plugins ] [Whizzer] loaded [jetty, transport-thrift], sites [bigdesk] [2017-05-04 19:07:54,662][INFO ][node ] [Whizzer] {0.20.4}[10109]: initialized [2017-05-04 19:07:54,662][INFO ][node ] [Whizzer] {0.20.4}[10109]: starting ... [2017-05-04 19:07:54,684][INFO ][thrift ] [Whizzer] bound on port [9500] [2017-05-04 19:07:54,759][INFO ][transport ] [Whizzer] bound_address {inet[/0:0:0:0:0:0:0:0:9301]}, publish_address {inet[/192.168.1.88:9301]} [2017-05-04 19:07:57,824][INFO ][cluster.service ] [Whizzer] detected_master [Mary Walker][c-B02SPPQ3im2fuwR6m7kQ][inet[/192.168.1.88:9300]], added {[Mary Walker][c-B02SPPQ3im2fuwR6m7kQ][inet[/192.168.1.88:9300]],}, reason: zen-disco-receive(from master [[Mary Walker][c-B02SPPQ3im2fuwR6m7kQ][inet[/192.168.1.88:9300]]]) [2017-05-04 19:07:57,857][INFO ][discovery ] [Whizzer] elasticsearch/vFZb7vcRRE6_NhwilTlF5Q [2017-05-04 19:07:57,863][INFO ][http ] [Whizzer] bound_address {inet[/0:0:0:0:0:0:0:0:9201]}, publish_address {inet[/192.168.1.88:9201]} [2017-05-04 19:07:57,864][INFO ][node ] [Whizzer] {0.20.4}[10109]: started
elasticsearch의 기본 포트는 9200입니다.
플러그인 설치하기
bin/plugin -install Aconex/elasticsearch-head bin/plugin -install lukas-vlcek/bigdesk bin/plugin -install elasticsearch/elasticsearch-transport-thrift/1.4.0 bin/plugin -url https://oss-es-plugins.s3.amazonaws.com/elasticsearch-jetty/elasticsearch-jetty-0.20.1.zip -install elasticsearch-jetty-0.20.1
bin/plugin을 이용하여 쉽게 플러그인을 설치할 수 있다.
첫 번째와 두 번째 줄에서 보이는 head와 bigdesk 플러그인은 모니터링을 위한 필수 플러그인이다. 설치 후  http://localhost:9200/_plugin/head/ 와 http://localhost:9200/_plugin/bigdesk/로 접속하면 웹 브라우저를 이용해 상태를 확인해 볼 수 있다.
설정변경
간단한 테스트에는 설정 변경이 필요 없으나, 성능 테스트, 실서비스에 적용할 때에는 몇가지 변경이 필요하다고 한다.
# 클러스터를 식별하기 위한 이름이므로 유일성과 의미를 가진 이름을 사용하자 cluster.name: es-cluster # 노드 이름은 자동으로 생성되지만 호스트명과 같이 클러스터 내에서 식별 가능한 이름을 활용하는 것이 좋다. node.name: "es-node1" # 기본값은 아래 두 값이 모두 true. node.master는 노드가 마스터가 될 수 있지에 대한 설정이고, node.data는 데이터를 저장하는 노드인지에 대한 설정이다. 보통은 두 값을 true로 설정하면 되고, 클러스터의 규모가 큰 경우에는 3가지 종류의 노드를 구성하기 위해 이 값을 노드별로 조정해 설정한다. 자세한 사항은 토폴로지(topology) 설정에서 다시 설명하겠다. node.master: true node.data: true # 샤드와 리플리카 수를 변경하는 설정이다. 아래 값은 기본값이다. index.number_of_shards: 5 index.number_of_replicas: 1 #JVM의 스왑을 방지하려면 아래 설정 값을 true로 한다. bootstrap.mlockall: true # 클러스터 내의 각 노드의 상태 체크를 위한 타임아웃 값으로, 너무 작게 하면 노드가 클러스터에서 자주 이탈하는 문제가 발생할 수 있어 적절한 값을 설정한다. 기본값은 3초다. discovery.zen.ping.timeout: 10s # 기본값은 멀티캐스트를 사용하지만, 실환경에서는 다른 클러스터와 노드가 섞이는 위험이 발생할 수 있으므로 유니캐스트를 사용하고 두 번째 설정 값에 마스터가 될 수 있는 서버들의 목록을 나열하는 것이 좋다. discovery.zen.ping.multicast.enabled: false discovery.zen.ping.unicast.hosts: ["host1", "host2:port", "host3[portX-portY]"]
설정파일은 config/elasticsearch.yml에 작성되어 있다.
기본적으로 설정파일은 전부 주석 처리가 걸려있다.해당 설정값을 위 설정값과 하나하나 비교를 해보았는데node.master: true이 부분이랑 클러스터이름, 노드 이름, discovery.zen.ping.timeout: 10s 부분빼고는 나머지는 전부 똑같다.
node.master:true값에 따라사 기존의 마스터 노드가 죽었을 때 마스터 노드가 될 수 있는 자격에 대한 설정인 것 같다.
아마 elasticsearch를 설치하고 디렉토리를 보면 전체적으로 한눈에 들어올 것이다. 매우 직관적으로 잘 만들어졌다. 
개인적으로 접근성은 괜찮은 것 같다. 
다음번 포스팅에서는 REST API와 python을 이용하여 elasticsearch를 사용하는 방법에 대해서 알아보도록 하겠습니다.

댓글

이 블로그의 인기 게시물

[kali linux] sqlmap - post요청 injection 시도

아래 내용은 직접 테스트 서버를 구축하여 테스트 함을 알립니다.  실 서버에 사용하여 얻는 불이익에는 책임을 지지 않음을 알립니다. sqlmap을 이용하여 get요청이 아닌 post요청에 대해서 injection공격을 시도하자. 뚀한 다양한 플래그를 이용하여 DB 취약점 테스트를 진행을 해보려고 한다. 서버  OS : windows 7 64bit Web server : X Server engine : node.js Framework : expresss Use modules : mysql Address : 172.30.1.30 Open port : 6000번 공격자 OS : kali linux 64bit use tools : sqlmap Address : 172.30.1.57 우선 서버측 부터  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 var  express  =  require( 'express' ); var  app  =  express(); var  mysql  =  require( 'mysql' ); var  ccc  =  mysql.createConnection({     host: '127.0.0.1' ,     user: 'root' ,     pos...

[git] pull을 하여 최신코드를 내려받자

보면 먼가 로고가 다르게 뜨는것을 확인을 할 수가있다. C:\Users\mung\Desktop\etc\study\python-gene>git checkout remotes/origin/master Note: checking out 'remotes/origin/master'. You are in 'detached HEAD' state. You can look around, make experimental changes and commit them, and you can discard any commits you make in this state without impacting any branches by performing another checkout. If you want to create a new branch to retain commits you create, you may do so (now or later) by using -b with the checkout command again. Example:   git checkout -b HEAD is now at 29e282a... fetch test C:\Users\mung\Desktop\etc\study\python-gene>git branch * (HEAD detached at origin/master)   master   test1   test2 깃이 잘 쓰면 참 좋은놈인데 어지간히 쓰기가 까다롭다. 처음에 깃을 푸시 성공하는데만 한달정도 걸렸던걸로 기억이 난다.. ㅋㅋㅋ 여담으로  깃 프로필을 가면 아래사진 처럼 보인다. 기여도에 따라서 초록색으로 작은 박스가 채워지는데 저걸 잔디라고 표현을 한다고 합니다 ㅎ 저 사진은 제 깃 기여도 사진입니당 ㅋㅋㅋㅋ 다시 본론으로 돌아와서 ㅋㅋ pull을 하면...

[git] git log 확인하기

git log를 통해서 커밋 이력과 해당 커밋에서 어떤 작업이 있었는지에 대해 조회를 할 수 있다. 우선 git에서의 주요 명령어부터 알아보겠다. $ git push [branch name] $ git pull [branch name] 여기서 branch name은 로컬일 경우 해당 브런치 이름만 적으면 되지만 깃허브 원격 저장소로 연결을 원할 경우는 해당 브런치 이름 앞에 꼭 origin을 붙이도록 한다. $ git brnch [branch name] $ git checkout [branch name] branch일경우 해당 브런치를 생성을 한다. 여기서 현재의 브런치를 기준으로 브런치를 따는것이다. checkout은 브런치를 바꾸는 것이다.(HEAD~[숫자]를 이용하면 해당 커밋으로 움직일수 있다.. 아니면 해당 커밋 번호를 통해 직접 옮기는것도 가능하다.) -> 해당 커밋으로 옮기는 것일뿐 실질적으로 바뀌는 것은 없다. 해당 커밋으로 완전히 되돌리려면 reset이라는 명령어를 써야한다. 처음 checkout을 쓰면 매우 신기하게 느껴진다. 막 폴더가 생겼다가 지워졌다가 ㅋㅋㅋㅋㅋ  master 브런치에서는 ht.html파일이 존재하지만 a브런치에서는 존재하지않는다. checkout 으로 변경을 하면 D 로 명시를 해준다.  $ git log 해당 브런치의 커밋 내역을 보여준다. a 브런치의 커밋 내역들이다. (머지 테스트를 하느라 커밋 내용이 거의 비슷하다 ㅋㅋ) master 브런치의 커밋 내역들이다. 커밋 번호, 사용자, 날짜, 내용순으로 등장을 한다. 이건 단순히 지금까지의 내역을 훑어보기 좋다. 좀더 세밀한 내용을 봐보자. $ git log --stat --stat을 붙이면 기존의 로그에서 간략하게...