'Log Analysis'에 해당되는 글 1건

  1. 2015/04/21 용비 02. Basic Concepts

Elasticsearch 핵심적인 몇가지 concept(개념) 있다. 처음부터 이러한 concept 이해하는 것이 elasticsearch 대해서 배우는 과정 중에서 굉장히 도움이 것이다.


[Near Realtime (NRT)]

Elasticsearch near realtime 검색 플랫폼이다. 이것이 의미하는 바는 여러분이 document index하는 시점으로부터 검색 결과를 얻기까지 약간의 지연 현상(일반적으로 1) 있음을 의미한다.


[Cluster]

Cluster 여러분의 전체 데이터를 담고 있는 하나 이상의 node(server) 모음을 말한다. 그리고 Cluster 모든 node 있는 federated indexing ( node 개별적으로 존재하는 index들의 연합) 검색 기능을 제공한다. Cluster 기본적으로 "elasticsearch"라는 유일한 이름으로 구분된다. 하나의 node 한번 cluster join하도록 셋팅되면 다른 곳에 참여할 없기 때문에 cluster 이름이 중요하다. Prodoction에서는 명시적으로 cluster name 설정하는 것이 좋다. 하지만, testing/development 목적으로는 default name 사용하는 것이 유용하다.


하나의 node만으로 cluster 구성하는 것도 유효하고 완벽하게 동작한다는 것에 유념하라. 더욱이, 유일한 cluster name 가지는 독립적인 여러 cluster 구성하는 것도 가능하다.


[Node]

Node cluster 일부분이고, 데이터를 저장하고, cluster index 검색 기능에 참여하는 하나의 서버이다. Cluster 같이 node 유일한 이름을 갖는다. 기본적으로는 시작 시점에 node 할당되는 임의의 Marvel character명을 갖는다. 기본적으로 부여되는 node명을 원하지 않으면 여러분이 원하는 어떤 이름으로도 node명을 정할 있다. 이름은 네트워크에 있는 어느 서버가 여러분의 elasticsearch cluster 있는 node인지 구분하기 위한 관리하는데 사용되므로 중요하다.


Node cluster name으로 특정 cluser join하도록 설정할 있다. 기본적으로 개별 node elasticsearch라는 이름의 cluster join하도록 셋팅한다. 이것은 여러분이 네트워크 상에 많은 node 실행한다면 - 서로 discover 가능하다고 가정하면 - 자동으로 elasticsearch라고 이름 붙여진 cluster join하여 cluster 구성함을 의미한다.


여러분은 많은 node 하나의 cluster 구성할 있다. 나아가, 네트워크 상에 현재 구동되어 있는 Elasticsearch ndoe 없다면, 하나의 node 실행하여 elasticsearch 이름붙여진 새로운 단일 node cluster 기본적으로 구성할 수도 있다.


[Index]

Index 유사한 특징들을 가진 document들의 집합이다. 예를 들어, customer data 대한 index, 제품 카탈로그에 대한 다른 index, order(주문) 대한 다른 index 가질 있다. Index name (소문자여야만 한다.)으로 구분되고, 이름은 document 대한 indexing, search, update, delete 작업을 수행하기 위해 index 참조하는데 사용한다.


하나의 cluster에서 여러분이 원하는 대로 여러 개의 index 정의할 있다.


[Type]

Index내에서 하나 이상의 type 정의할 있다. Type 논리적인 index category/partition이다. 일반적으로, type common field 가진 document 대해 정의되어 있다. 예를 들어, 여러분이 blogging platform 운영하고 여러분의 모든 data 하나의 index 저장한다고 가정해 보자. index에는 user data, blog data, comments data 등에 대한 type 정의되어 있을 것이다.


[Document]

Document index되는 정보의 기본 단위이다. 예를 들어, 단일 고객에 대한 document, 단일 상품에 대한 document, 단일 주문에 대한 document등을 가질 있다. 이러한 document 인터넷상에서 데이터 형식으로 폭넓게 사용되는 JSON으로 표시된다. (Javascript Object Notation)


여러분은 Index/type내에 여러분이 저장하고자 하는 많은 document 저장할 있다. Document 물리적으로는 index내에 있다고 할지라도, document 실제로 index내에서 Type으로 index되고 지정되어야만 한다는 것에 유의하라.


[Shards & Replicas]

Index 잠재적으로 하나의 node에서 하드웨어 limit 넘어서는 대용량의 데이터를 저장할 있다예를 들어서 1TB disk space 차지하는 10억개의 document 대한 하나의 index 하나의 node 있는 disk에는 맞지 않거나 single node만으로 검색 요청을 수용하기에는 너무 느릴 것이다.


문제를 해결하기 위해서, elasticsearch 여러분의 index shard라고 부르는 여러 개의 조각으로 세분화할 있도록 한다. 여러분이 index 생성할 , 여러분이 원하는 shard 수를 간단히 지정할 있다. shard cluster 있는 어떤 node에서도 host 있는 fully-functional and independent "index" 자체이다.


Sharding 2가지 주요 이유 때문에 중요하다.

  • Content Volume 수평적 확장 가능
  • 성능과 Throughput 향상을 위해 (여러 node 분산되어 있는) shard 분산/병렬 처리 가능

Shard 어떻게 분산되어 있는지, document들이 search request로부터 어떻게 수집되는지에 대한 메커니즘은 elasticsearch 의해 완벽하게 관리된다. 그리고 여러분은 user로서 알기 쉽다.


언제라도 실패할 있는 네트워크나 클라우드 환경에서, 무슨 이유에서건 shard node offline 되거나 사라지는 경우에 대한 failover 메커니즘을 가지는 것이 강력하게 추천되는 유용한 기능이다. 이러한 목적으로 elasticsearch (replica shard 혹은 짧게 replicas라고 부르는) index shard 대한 하나 이상의 복사본을 가질 있다.


Replication 2가지 이유 때문에 중요하다.

  • Shard/node fail, high availability 제공한다. 이런 이유로, replica shard 절대로 원본 (original/primary) shard 동일한 node 할당되면 된다.
  • Search volume 대한 scale out 제공하고, 모든 replica에서 병렬적으로 검색을 실행할 있기 때문에 throughput 향상된다.

요약하자면, index 여러 개의 shard 나누어질 있다. Index 0(replicas 없는 경우) 이상 복제될 있다. 한번 복제되면, index primary shard(원본) replica shards를 갖는다. Shards와 replicas의 개수는 index 생성될 , index별로 정의될 있다. Index 생성된 이후에는 어느 때라도 동적으로 replicas 수를 변경할 있지만, 사후에 shard 숫자를 변경할 수는 없다. (동적으로 replicas 수를 변경할 수는 있지만 shard 숫자는 변경할 없다.)


기본적으로, elasticsearch내의 index 5개의 primary shard 1개의 replica 할당한다. 이것은 여러분이 cluster내에 최소한 2개의 node 가지고 있다면, 여러분의 index 5개의 primary shard 5개의 replica shard (1개의 replica set) 가진다는 의미이다. 인덱스당 10개의 shard 갖는다.


{Note}

elasticsearch shard Lucene index이다. 하나의 Lucene Index 저장할 있는 Max Document 수가 있다. Limit Integer.MAX_VALUE -128 해당하는 2,147,483,519개이다. _cat/shards API 통해서 shard size 모니터링할 있다.

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/686