기본 콘텐츠로 건너뛰기

[db] elasticsearch란? es 설치 방법

elasticsearch는 분산 검색엔진입니다. 분산 시스템이기 때문에 검색 대상 용량이 증가했을 때 대처하기가 매우 쉽다.
elasticsearch에 대해서 알아보기 전에 elasticsearch가 나온지 꽤 된 저장소이다. 과연 얼마나 최근에 업데이트가 되었는지 github에서 살펴보았는데 최근 커밋 내역이 2분전이다... ㅋㅋㅋㅋ(죄송합니다.)
해당 포스트에서는 0.20 버전을 사용하지만 현재 5.x버전까지 나왔습니다
관계형 데이터베이스 VS elasticsearch 비교
관계형 데이터베이스
elasticsearch
Database
Index
Table
Type
Row
Document
Column
Field
Schema
Mapping
Index
Everything is indexed
SQL
Query DSL
index라는 개념이 관계형에서의 개념이 잡혀있어서 문서에서 index라고 나올 때마다 Database로 딱 안 떠오른다 ㅋㅋ
elasticsearch의 특징은 다음과 같다.
JSON 기반의 스키마 없는 저장소
elasticsearch는 검색엔진이지만 NoSQL처럼 사용가능
Multi-tenancy
하나의 서버안에 여러 인덱스 저장가능. 여러 인덱스의 데이터를 하나의 쿼리로 검색 가능
확장성과 유연성
플러그인을 이용해 기능확장이 용이함. BigDesk, Head를 설치하면 elasticsearch 모니터링 기능을 사용할 수 있게 된다.(직접 사용해보니 플러그인을 설치하는 것이 상당히 쉬움)
분산 저장소
노드 추가의 용이함. 키에 따라 여러 샤드가 구성되는 방식으로 데이터를 분산.인덱스는 각 샤드마다 구성, 각 샤드는 0개 이상의 복제본을 가진다.클러스터가 가동될 때 여러 노드 중 하나의 메타데이터 관리를 위한 마스터 노드로 선출.
elasticsearch 설치하기
다운로드
$ wget http://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-0.20.4.tar.gz $ tar xvzf elasticsearch-0.20.4.tar.gz
서버실행
$ cd elasticsearch-0.20.4 $ bin/elasticsearch -f [2017-05-04 19:07:47,897][INFO ][node ] [Whizzer] {0.20.4}[10109]: initializing ... [2017-05-04 19:07:47,915][INFO ][plugins ] [Whizzer] loaded [jetty, transport-thrift], sites [bigdesk] [2017-05-04 19:07:54,662][INFO ][node ] [Whizzer] {0.20.4}[10109]: initialized [2017-05-04 19:07:54,662][INFO ][node ] [Whizzer] {0.20.4}[10109]: starting ... [2017-05-04 19:07:54,684][INFO ][thrift ] [Whizzer] bound on port [9500] [2017-05-04 19:07:54,759][INFO ][transport ] [Whizzer] bound_address {inet[/0:0:0:0:0:0:0:0:9301]}, publish_address {inet[/192.168.1.88:9301]} [2017-05-04 19:07:57,824][INFO ][cluster.service ] [Whizzer] detected_master [Mary Walker][c-B02SPPQ3im2fuwR6m7kQ][inet[/192.168.1.88:9300]], added {[Mary Walker][c-B02SPPQ3im2fuwR6m7kQ][inet[/192.168.1.88:9300]],}, reason: zen-disco-receive(from master [[Mary Walker][c-B02SPPQ3im2fuwR6m7kQ][inet[/192.168.1.88:9300]]]) [2017-05-04 19:07:57,857][INFO ][discovery ] [Whizzer] elasticsearch/vFZb7vcRRE6_NhwilTlF5Q [2017-05-04 19:07:57,863][INFO ][http ] [Whizzer] bound_address {inet[/0:0:0:0:0:0:0:0:9201]}, publish_address {inet[/192.168.1.88:9201]} [2017-05-04 19:07:57,864][INFO ][node ] [Whizzer] {0.20.4}[10109]: started
elasticsearch의 기본 포트는 9200입니다.
플러그인 설치하기
bin/plugin -install Aconex/elasticsearch-head bin/plugin -install lukas-vlcek/bigdesk bin/plugin -install elasticsearch/elasticsearch-transport-thrift/1.4.0 bin/plugin -url https://oss-es-plugins.s3.amazonaws.com/elasticsearch-jetty/elasticsearch-jetty-0.20.1.zip -install elasticsearch-jetty-0.20.1
bin/plugin을 이용하여 쉽게 플러그인을 설치할 수 있다.
첫 번째와 두 번째 줄에서 보이는 head와 bigdesk 플러그인은 모니터링을 위한 필수 플러그인이다. 설치 후  http://localhost:9200/_plugin/head/ 와 http://localhost:9200/_plugin/bigdesk/로 접속하면 웹 브라우저를 이용해 상태를 확인해 볼 수 있다.
설정변경
간단한 테스트에는 설정 변경이 필요 없으나, 성능 테스트, 실서비스에 적용할 때에는 몇가지 변경이 필요하다고 한다.
# 클러스터를 식별하기 위한 이름이므로 유일성과 의미를 가진 이름을 사용하자 cluster.name: es-cluster # 노드 이름은 자동으로 생성되지만 호스트명과 같이 클러스터 내에서 식별 가능한 이름을 활용하는 것이 좋다. node.name: "es-node1" # 기본값은 아래 두 값이 모두 true. node.master는 노드가 마스터가 될 수 있지에 대한 설정이고, node.data는 데이터를 저장하는 노드인지에 대한 설정이다. 보통은 두 값을 true로 설정하면 되고, 클러스터의 규모가 큰 경우에는 3가지 종류의 노드를 구성하기 위해 이 값을 노드별로 조정해 설정한다. 자세한 사항은 토폴로지(topology) 설정에서 다시 설명하겠다. node.master: true node.data: true # 샤드와 리플리카 수를 변경하는 설정이다. 아래 값은 기본값이다. index.number_of_shards: 5 index.number_of_replicas: 1 #JVM의 스왑을 방지하려면 아래 설정 값을 true로 한다. bootstrap.mlockall: true # 클러스터 내의 각 노드의 상태 체크를 위한 타임아웃 값으로, 너무 작게 하면 노드가 클러스터에서 자주 이탈하는 문제가 발생할 수 있어 적절한 값을 설정한다. 기본값은 3초다. discovery.zen.ping.timeout: 10s # 기본값은 멀티캐스트를 사용하지만, 실환경에서는 다른 클러스터와 노드가 섞이는 위험이 발생할 수 있으므로 유니캐스트를 사용하고 두 번째 설정 값에 마스터가 될 수 있는 서버들의 목록을 나열하는 것이 좋다. discovery.zen.ping.multicast.enabled: false discovery.zen.ping.unicast.hosts: ["host1", "host2:port", "host3[portX-portY]"]
설정파일은 config/elasticsearch.yml에 작성되어 있다.
기본적으로 설정파일은 전부 주석 처리가 걸려있다.해당 설정값을 위 설정값과 하나하나 비교를 해보았는데node.master: true이 부분이랑 클러스터이름, 노드 이름, discovery.zen.ping.timeout: 10s 부분빼고는 나머지는 전부 똑같다.
node.master:true값에 따라사 기존의 마스터 노드가 죽었을 때 마스터 노드가 될 수 있는 자격에 대한 설정인 것 같다.
아마 elasticsearch를 설치하고 디렉토리를 보면 전체적으로 한눈에 들어올 것이다. 매우 직관적으로 잘 만들어졌다. 
개인적으로 접근성은 괜찮은 것 같다. 
다음번 포스팅에서는 REST API와 python을 이용하여 elasticsearch를 사용하는 방법에 대해서 알아보도록 하겠습니다.

댓글

이 블로그의 인기 게시물

[node.js] 파일 리더기 만들기 - 사용 모듈 정리, pdf 구조, hwp 구조

pdf -> html 변환 가장 무난하다. 기본적으로 pdf는 htm와 비슷한 형태의 구조를 가지고 있다. 크게 header , body , xref table , trailer 의 구조로 되어있다. pdf는 환경에 상관없이 표현을 하기 위한 목적을 가지고 있는 파일이다. 이런 이유 때문에 무난히 진행이 된 것 같다. pdf2htmlex와 pdftohtmljs라는 모듈을 이용을 했다. var pdftohtml = require ( 'pdftohtmljs' ) ; var converter = new pdftohtml ( 'test.pdf' , "sample.html" ) ; converter . convert ( 'ipad' ) . then ( function ( ) { console . log ( "Success" ) ; } ) . catch ( function ( err ) { console . error ( "Conversion error: " + err ) ; } ) ; 이미지나, text같은 것들이 거의 100%로 변환이 된다. docx -> html 변환 docx파일을 html파일로 변환을 할 때는 style 적용과 한글이 깨지는 문제가 있다. 텍스트들을 전부 잘 읽기는 하는데 스타일 정보를 제대로 가져오지 못하기 때문에 좀 애매하다 - Headings. - Lists. - Customisable mapping from your own docx styles to HTML. For instance, you could convert WarningHeading to h1.warning by providing an appropriate style ...

[알고리즘] snake게임 알고리즘

막무가네로 알고리즘을 공부하면 재미가 없으니 게임을 접목하여 다루어 보도록 하겠습니다. 게임의 대상은 스네이크 게임입니다. 많은 사람들은 어릴 때 뱀게임을 많이 해봤을 것 입니다. 이번에 다뤄볼 주제는 뱀이 움직임을 어떻게 구현을 할지 알아보겠습니다. 뱀은 크게 3가지의 경우가 있습니다 1. 가장 중요한 뱀을 움직이기 2. 음식먹기 이때 뱀은 크기가 늘어나야 합니다. 3. 뱀이 움직이는 정책   - 뱀이 움직이지 못하는 경우는 : 우측방향에서 좌측 방향으로 OR 위에 아래 방향고 같이 180도 반전되는 움직임은 막겠습니다. 순수한 알고리즘을 만드는 과정이기 때문에 음식을 먹었는지 안먹었는지 판단하는 부분은 랜덤으로 판단을 하도록 하겠습니다. def is_eat(): return random.choice([1, 0]) 랜덤으로 1, 0을 반환을 해줍니다. 실제로 게임을 만든다면 해당 함수는 뱀의 머리가 음식의 좌표와 같은지 검사를 해주면 되겠습니다. key_position_map = { 'w': [-1, 0], # up 's': [1, 0], # down 'a': [0, -1], # left 'd': [0, 1] # right } direction = key_position_map.get('d') 다음으로는 키맵핑을 한 오브젝트 입니다. direction은 현재 뱀의 방향을 나타냅니다. snake_body = [[2, 3], [1, 3],[1, 2], [1, 1]] 주인공이 되는 뱀의 좌표들 입니다. while True: key = input() new_direction = key_position_map.get(key) if new_direction and direction_check(direction, new_direction): directi...

[css] css로 프린트 방지하기

웹에서 프린트 제어가 불가능 한 줄 알았는데 프린트 클릭 시  스크립트로 해당 이벤트를 받아올 수 있다. 하지만 스크립트를 사용하는 방법은 브라우저마다 작동을 하지 않을 수 있다. 좀 더 찾아보니 css로 인쇄되는 영역을 제어를 해줄 수 있다.  @media print 를 이용하면 된다. < html > < head > < title > print test page < / title > < style > @media print { . np { display : none ; } } < / style > < / head > < body > < div class = "np" > test < / div > < div > test1 < / div > < div > test1 < / div > < div > test1 < / div > < / body > < / html > 위 코드를 보면 np 클래스를 @media print에 넣어주었다. @media print는 인쇄됐을 때의 스타일을 지정을 해주는 것이다.  위에서는 해당 페이지를 인쇄할 때 p를 display : none으로 가려주었다. @media print를 이용하면 좀 더 멋진 인쇄물을 만들 수 ...