本篇主要內(nèi)容如下：

主要內(nèi)容

前言

項(xiàng)目中我們總是用 Kibana界面來搜索測試或生產(chǎn)環(huán)境下的日志，來看下有沒有異常信息。Kibana就是我們常說的 ELK中的 K。

(資料圖片僅供參考)

Kibana 界面如下圖所示：

Kibana 界面

但這些日志檢索原理是什么呢？這里就該我們的 Elasticsearch 搜索引擎登場了。

我會(huì)分為三篇來講解 Elasticsearch（簡稱ES）的原理、實(shí)戰(zhàn)及部署。

上篇：講解 ES 的原理、中文分詞的配置。中篇：實(shí)戰(zhàn) ES 應(yīng)用。下篇：ES 的集群部署。

為什么要分成三篇，因?yàn)槊恳黄己荛L，而且側(cè)重點(diǎn)不一樣，所以分成三篇來講解。

一、Elasticsearch 簡介

1.1 什么是 Elasticsearch?

Elasticsearch 是一個(gè)分布式的開源搜索和分析引擎，適用于所有類型的數(shù)據(jù)，包括文本、數(shù)字、地理空間、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。簡單來說只要涉及搜索和分析相關(guān)的， ES 都可以做。

1.2 Elasticsearch 的用途？

Elasticsearch 在速度和可擴(kuò)展性方面都表現(xiàn)出色，而且還能夠索引多種類型的內(nèi)容，這意味著其可用于多種用例：

比如一個(gè)在線網(wǎng)上商店，您可以在其中允許客戶搜索您出售的產(chǎn)品。在這種情況下，您可以使用Elasticsearch 存儲(chǔ)整個(gè)產(chǎn)品目錄和庫存，并為它們提供搜索和自動(dòng)完成建議。

搜索手機(jī)

比如收集日志或交易數(shù)據(jù)，并且要分析和挖掘此數(shù)據(jù)以查找趨勢，統(tǒng)計(jì)信息，摘要或異常。在這種情況下，您可以使用 Logstash（Elasticsearch / Logstash / Kibana堆棧的一部分）來收集，聚合和解析數(shù)據(jù)，然后讓 Logstash 將這些數(shù)據(jù)提供給 Elasticsearch。數(shù)據(jù)放入 Elasticsearch 后，您可以運(yùn)行搜索和聚合以挖掘您感興趣的任何信息。

1.3 Elasticsearch 的工作原理？

ELK 原理圖

Elasticsearch 是在 Lucene 基礎(chǔ)上構(gòu)建而成的。ES 在 Lucence 上做了很多增強(qiáng)。

Lucene 是apache軟件基金會(huì) 4 的 jakarta 項(xiàng)目組的一個(gè)子項(xiàng)目，是一個(gè)開放源代碼的全文檢索引擎工具包，但它不是一個(gè)完整的全文檢索引擎，而是一個(gè)全文檢索引擎的架構(gòu)，提供了完整的查詢引擎和索引引擎，部分文本分析引擎（英文與德文兩種西方語言）。Lucene的目的是為軟件開發(fā)人員提供一個(gè)簡單易用的工具包，以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能，或者是以此為基礎(chǔ)建立起完整的全文檢索引擎。（來自百度百科）

Elasticsearch 的原始數(shù)據(jù)從哪里來？

原始數(shù)據(jù)從多個(gè)來源 ( 包括日志、系統(tǒng)指標(biāo)和網(wǎng)絡(luò)應(yīng)用程序 ) 輸入到 Elasticsearch 中。

Elasticsearch 的數(shù)據(jù)是怎么采集的？

數(shù)據(jù)采集指在 Elasticsearch 中進(jìn)行索引之前解析、標(biāo)準(zhǔn)化并充實(shí)這些原始數(shù)據(jù)的過程。這些數(shù)據(jù)在 Elasticsearch 中索引完成之后，用戶便可針對他們的數(shù)據(jù)運(yùn)行復(fù)雜的查詢，并使用聚合來檢索自身數(shù)據(jù)的復(fù)雜匯總。這里用到了 Logstash，后面會(huì)介紹。

怎么可視化查看想要檢索的數(shù)據(jù)？

這里就要用到 Kibana 了，用戶可以基于自己的數(shù)據(jù)進(jìn)行搜索、查看數(shù)據(jù)視圖等。

1.4 Elasticsearch 索引是什么？

Elasticsearch 索引指相互關(guān)聯(lián)的文檔集合。Elasticsearch 會(huì)以 JSON 文檔的形式存儲(chǔ)數(shù)據(jù)。每個(gè)文檔都會(huì)在一組鍵 ( 字段或?qū)傩缘拿Q ) 和它們對應(yīng)的值 ( 字符串、數(shù)字、布爾值、日期、數(shù)值組、地理位置或其他類型的數(shù)據(jù) ) 之間建立聯(lián)系。

Elasticsearch 使用的是一種名為倒排索引的數(shù)據(jù)結(jié)構(gòu)，這一結(jié)構(gòu)的設(shè)計(jì)可以允許十分快速地進(jìn)行全文本搜索。倒排索引會(huì)列出在所有文檔中出現(xiàn)的每個(gè)特有詞匯，并且可以找到包含每個(gè)詞匯的全部文檔。

在索引過程中，Elasticsearch 會(huì)存儲(chǔ)文檔并構(gòu)建倒排索引，這樣用戶便可以近實(shí)時(shí)地對文檔數(shù)據(jù)進(jìn)行搜索。索引過程是在索引 API 中啟動(dòng)的，通過此 API 您既可向特定索引中添加 JSON 文檔，也可更改特定索引中的 JSON 文檔。

1.5 Logstash 的用途是什么？

Logstash 就是 ELK中的 L。

Logstash 是 Elastic Stack 的核心產(chǎn)品之一，可用來對數(shù)據(jù)進(jìn)行聚合和處理，并將數(shù)據(jù)發(fā)送到 Elasticsearch。Logstash 是一個(gè)開源的服務(wù)器端數(shù)據(jù)處理管道，允許您在將數(shù)據(jù)索引到 Elasticsearch 之前同時(shí)從多個(gè)來源采集數(shù)據(jù)，并對數(shù)據(jù)進(jìn)行充實(shí)和轉(zhuǎn)換。

1.6 Kibana 的用途是什么？

Kibana 是一款適用于 Elasticsearch 的數(shù)據(jù)可視化和管理工具，可以提供實(shí)時(shí)的直方圖、線性圖等。

1.7 為什么使用 Elasticsearch

ES 很快，近實(shí)時(shí)的搜索平臺(tái)。ES 具有分布式的本質(zhì)特質(zhì)。ES 包含一系列廣泛的功能，比如數(shù)據(jù)匯總和索引生命周期管理。

官方文檔：https://www.elastic.co/cn/what-is/elasticsearch

二、ES 基本概念

2.1 Index ( 索引 )

動(dòng)詞：相當(dāng)于 Mysql 中的 insert

名詞：相當(dāng)于 Mysql 中的 database

與 mysql 的對比

序號(hào)	Mysql	Elasticsearch
1	Mysql 服務(wù)	ES 集群服務(wù)
2	數(shù)據(jù)庫 Database	索引 Index
3	表 Table	類型 Type
4	記錄 Records ( 一行行記錄 )	文檔 Document ( JSON 格式 )

2.2 倒排索引

假如數(shù)據(jù)庫有如下電影記錄：

1-大話西游

2-大話西游外傳

3-解析大話西游

4-西游降魔外傳

5-夢幻西游獨(dú)家解析

分詞：將整句分拆為單詞

序號(hào)	保存到 ES 的詞	對應(yīng)的電影記錄序號(hào)
A	西游	1,2, 3,4, 5
B	大話	1,2, 3
C	外傳	2,4, 5
D	解析	3,5
E	降魔	4
F	夢幻	5
G	獨(dú)家	5

檢索：獨(dú)家大話西游

將 獨(dú)家大話西游解析拆分成 獨(dú)家、大話、西游

ES 中 A、B、G 記錄都有這三個(gè)詞的其中一種，所以 1,2, 3,4, 5 號(hào)記錄都有相關(guān)的詞被命中。

1 號(hào)記錄命中 2 次， A、B 中都有 ( 命中 2次 ) ，而且 1 號(hào)記錄有 2個(gè)詞，相關(guān)性得分：2次/2個(gè)詞=1

2 號(hào)記錄命中 2 個(gè)詞 A、B 中的都有 ( 命中 2次 ) ，而且 2 號(hào)記錄有 2個(gè)詞，相關(guān)性得分：2次/3個(gè)詞= 0.67

3 號(hào)記錄命中 2 個(gè)詞 A、B 中的都有 ( 命中 2次 ) ，而且 3 號(hào)記錄有 2個(gè)詞，相關(guān)性得分：2次/3個(gè)詞= 0.67

4 號(hào)記錄命中 2 個(gè)詞 A 中有 ( 命中 1次 ) ，而且 4 號(hào)記錄有 3個(gè)詞，相關(guān)性得分：1次/3個(gè)詞= 0.33

5 號(hào)記錄命中 2 個(gè)詞 A 中有 ( 命中 2次 ) ，而且 4 號(hào)記錄有 4個(gè)詞，相關(guān)性得分：2次/4個(gè)詞= 0.5

所以檢索出來的記錄順序如下：

1-大話西游 ( 想關(guān)性得分：1 )

2-大話西游外傳 ( 想關(guān)性得分：0.67 )

3-解析大話西游 ( 想關(guān)性得分：0.67 )

5-夢幻西游獨(dú)家解析 ( 想關(guān)性得分：0.5 )

4-西游降魔 ( 想關(guān)性得分：0.33 )

三、Docker 搭建環(huán)境

3.1. 搭建 Elasticsearch 環(huán)境

搭建虛擬機(jī)環(huán)境和安裝 docker 可以參照之前寫的文檔：

01. 快速搭建 Linux 環(huán)境-運(yùn)維必備02. 配置虛擬機(jī)網(wǎng)絡(luò)03. 安裝 Docker

1 ) 下載鏡像文件

docker pull elasticsearch:7.4.2

2 ) 創(chuàng)建實(shí)例

映射配置文件

配置映射文件夾mkdir -p /mydata/elasticsearch/config配置映射文件夾mkdir -p /mydata/elasticsearch/data設(shè)置文件夾權(quán)限任何用戶可讀可寫chmod 777 /mydata/elasticsearch -R配置 http.hostecho "http.host: 0.0.0.0" >> /mydata/elasticsearch/config/elasticsearch.yml

啟動(dòng) elasticsearch 容器

docker run --name elasticsearch -p 9200:9200 -p 9300:9300 \-e "discovery.type"="single-node" \-e ES_JAVA_OPTS="-Xms64m -Xmx128m" \-v /mydata/elasticsearch/config/elasticsearch.yml:/usr/share/elasticsearch/config/elasticsearch.yml \-v /mydata/elasticsearch/data:/usr/share/elasticsearch/data \-v /mydata/elasticsearch/plugins:/usr/share/elasticsearch/plugins \-d elasticsearch:7.4.2

訪問 elasticsearch 服務(wù)

訪問：http://192.168.56.10:9200

返回的 reponse

{  "name" : "8448ec5f3312",  "cluster_name" : "elasticsearch",  "cluster_uuid" : "xC72O3nKSjWavYZ-EPt9Gw",  "version" : {    "number" : "7.4.2",    "build_flavor" : "default",    "build_type" : "docker",    "build_hash" : "2f90bbf7b93631e52bafb59b3b049cb44ec25e96",    "build_date" : "2019-10-28T20:40:44.881551Z",    "build_snapshot" : false,    "lucene_version" : "8.2.0",    "minimum_wire_compatibility_version" : "6.8.0",    "minimum_index_compatibility_version" : "6.0.0-beta1"  },  "tagline" : "You Know, for Search"}

訪問：http://192.168.56.10:9200/_cat 訪問節(jié)點(diǎn)信息

127.0.0.1 62 90 0 0.06 0.10 0.05 dilm * 8448ec5f3312

3.2. 搭建 Kibana 環(huán)境

docker pull kibana:7.4.2docker run --name kibana -e ELASTICSEARCH_HOSTS=http://192.168.56.10:9200 -p 5601:5601 -d kibana:7.4.2

訪問 kibana: http://192.168.56.10:5601/

kibana

四、初階檢索玩法

4.1._cat 用法

GET /_cat/nodes: 查看所有節(jié)點(diǎn)GET /_cat/health: 查看 es 健康狀況GET /_cat/master: 查看主節(jié)點(diǎn)GET /_cat/indices: 查看所有索引查詢匯總：/_cat/allocation/_cat/shards/_cat/shards/{index}/_cat/master/_cat/nodes/_cat/tasks/_cat/indices/_cat/indices/{index}/_cat/segments/_cat/segments/{index}/_cat/count/_cat/count/{index}/_cat/recovery/_cat/recovery/{index}/_cat/health/_cat/pending_tasks/_cat/aliases/_cat/aliases/{alias}/_cat/thread_pool/_cat/thread_pool/{thread_pools}/_cat/plugins/_cat/fielddata/_cat/fielddata/{fields}/_cat/nodeattrs/_cat/repositories/_cat/snapshots/{repository}/_cat/templates

4.2. 索引一個(gè)文檔 ( 保存 )

例子：在 customer索引下的 external類型下保存標(biāo)識(shí)為 1的數(shù)據(jù)。

使用 Kibana 的 Dev Tools 來創(chuàng)建

PUT member/external/1{"name":"jay huang"}

Reponse:

{    "_index": "member", //在哪個(gè)索引    "_type": "external",//在那個(gè)類型    "_id": "2",//記錄 id    "_version": 7,//版本號(hào)    "result": "updated",//操作類型    "_shards": {        "total": 2,        "successful": 1,        "failed": 0    },    "_seq_no": 9,    "_primary_term": 1}

也可以通過 Postman 工具發(fā)送請求來創(chuàng)建記錄。

創(chuàng)建一條記錄

注意：

PUT 和 POST 都可以創(chuàng)建記錄。

POST：如果不指定 id，自動(dòng)生成 id。如果指定 id，則修改這條記錄，并新增版本號(hào)。

PUT：必須指定 id，如果沒有這條記錄，則新增，如果有，則更新。

4.3 查詢文檔

請求：http://192.168.56.10:9200/member/external/2Reposne:{    "_index": "member",   //在哪個(gè)索引    "_type": "external",  //在那個(gè)類型    "_id": "2",           //記錄 id    "_version": 7,        //版本號(hào)    "_seq_no": 9,         //并發(fā)控制字段，每次更新就會(huì)+1，用來做樂觀鎖    "_primary_term": 1,   //同上，主分片重新分配，如重啟，就會(huì)變化    "found": true,    "_source": { //真正的內(nèi)容        "name": "jay huang" }}

_seq_no 用作樂觀鎖

每次更新完數(shù)據(jù)后，_seq_no 就會(huì)+1，所以可以用作并發(fā)控制。

當(dāng)更新記錄時(shí)，如果_seq_no 與預(yù)設(shè)的值不一致，則表示記錄已經(jīng)被至少更新了一次，不允許本次更新。

用法如下：

請求更新記錄 2: http://192.168.56.10:9200/member/external/2?if_seq_no=9&&if_primary_term=1返回結(jié)果：{    "_index": "member",    "_type": "external",    "_id": "2",    "_version": 9,    "result": "updated",    "_shards": {        "total": 2,        "successful": 1,        "failed": 0    },    "_seq_no": 11,    "_primary_term": 1}

_seq_no 等于 10，且_primary_term=1 時(shí)更新數(shù)據(jù)，執(zhí)行一次請求后，再執(zhí)行上面的請求則會(huì)報(bào)錯(cuò)：版本沖突

{    "error": {        "root_cause": [ {                "type": "version_conflict_engine_exception",                "reason": "[2]: version conflict, required seqNo [10], primary term [1]. current document has seqNo [11] and primary term [1]",                "index_uuid": "CX6uwPBKRByWpuym9rMuxQ",                "shard": "0",                "index": "member" }        ],        "type": "version_conflict_engine_exception",        "reason": "[2]: version conflict, required seqNo [10], primary term [1]. current document has seqNo [11] and primary term [1]",        "index_uuid": "CX6uwPBKRByWpuym9rMuxQ",        "shard": "0",        "index": "member"    },    "status": 409}

4.4 更新文檔

用法

POST 帶 _update的更新操作，如果原數(shù)據(jù)沒有變化，則 repsonse 中的 result 返回 noop ( 沒有任何操作 ) ，version 也不會(huì)變化。

請求體中需要用 doc將請求數(shù)據(jù)包裝起來。

POST 請求：http://192.168.56.10:9200/member/external/2/_update{    "doc":{        "name":"jay huang" }}響應(yīng)：{    "_index": "member",    "_type": "external",    "_id": "2",    "_version": 12,    "result": "noop",    "_shards": {        "total": 0,        "successful": 0,        "failed": 0    },    "_seq_no": 14,    "_primary_term": 1}

使用場景：對于大并發(fā)更新，建議不帶 _update。對于大并發(fā)查詢，少量更新的場景，可以帶_update，進(jìn)行對比更新。

更新時(shí)增加屬性

請求體中增加 age屬性

http://192.168.56.10:9200/member/external/2/_updaterequest:{    "doc":{        "name":"jay huang",        "age": 18 }}response:{    "_index": "member",    "_type": "external",    "_id": "2",    "_version": 13,    "result": "updated",    "_shards": {        "total": 2,        "successful": 1,        "failed": 0    },    "_seq_no": 15,    "_primary_term": 1}

4.5 刪除文檔和索引

刪除文檔

DELETE 請求：http://192.168.56.10:9200/member/external/2response:{    "_index": "member",    "_type": "external",    "_id": "2",    "_version": 2,    "result": "deleted",    "_shards": {        "total": 2,        "successful": 1,        "failed": 0    },    "_seq_no": 1,    "_primary_term": 1}

刪除索引

DELETE 請求：http://192.168.56.10:9200/memberrepsonse:{    "acknowledged": true}

沒有刪除類型的功能

4.6 批量導(dǎo)入數(shù)據(jù)

使用 kinaba 的 dev tools 工具，輸入以下語句

POST /member/external/_bulk{"index":{"_id":"1"}}{"name":"Jay Huang"}{"index":{"_id":"2"}}{"name":"Jackson Huang"}

執(zhí)行結(jié)果如下圖所示：

批量插入數(shù)據(jù)

拷貝官方樣本數(shù)據(jù)

https://raw.githubusercontent.com/elastic/elasticsearch/master/docs/src/test/resources/accounts.json

官方樣本數(shù)據(jù)

在 kibana 中執(zhí)行腳本

POST /bank/account/_bulk{"index":{"_id":"1"}}{"account_number":1,"balance":39225,"firstname":"Amber","lastname":"Duke","age":32,"gender":"M","address":"880 Holmes Lane","employer":"Pyrami","email":"amberduke@pyrami.com","city":"Brogan","state":"IL"}{"index":{"_id":"6"}}......

批量插入樣本數(shù)據(jù)的執(zhí)行結(jié)果

查看所有索引

可以從返回結(jié)果中看到 bank 索引有 1000 條數(shù)據(jù)，占用了 440.2kb 存儲(chǔ)空間。

五、高階檢索玩法

5.1 兩種查詢方式

5.1.1 URL 后接參數(shù)

GET bank/_search?q=*&sort=account_number: asc

`/_search?q=*&sort=account_number: asc`查詢出所有數(shù)據(jù)，共 1000 條數(shù)據(jù)，耗時(shí) 1ms，只展示 10 條數(shù)據(jù) ( ES 分頁 )

URL 后接參數(shù)

took – ES 執(zhí)行搜索的時(shí)間 ( 毫秒 )

timed_out – ES 是否超時(shí)

_shards – 有多少個(gè)分片被搜索了，以及統(tǒng)計(jì)了成功/失敗/跳過的搜索的分片

max_score – 最高得分

hits.total.value - 命中多少條記錄

hits.sort - 結(jié)果的排序 key 鍵，沒有則按 score 排序

hits._score - 相關(guān)性得分

參考文檔：

https://www.elastic.co/guide/en/elasticsearch/reference/current/getting-started-search.html

### 5.1.2 URL 加請求體進(jìn)行檢索 ( QueryDSL )請求體中寫查詢條件語法：```json

GET bank/_search{  "query":{"match_all": {}},  "sort": [{"account_number": "asc" } ]}

示例：查詢出所有，先按照 accout_number 升序排序，再按照 balance 降序排序![URL 加請求體進(jìn)行檢索](https://img-blog.csdnimg.cn/img_convert/c33eabc7d153f503f3dbf0aff73da9b0.png)## 5.2 詳解 QueryDSL 查詢> DSL: Domain Specific Language### 5.2.1 全部匹配 match_all示例：查詢所有記錄，按照 balance 降序排序，只返回第 11 條記錄到第 20 條記錄，只顯示 balance 和 firstname 字段。```json

GET bank/_search{  "query": {"match_all": {}  },  "sort": [ {  "balance": {    "order": "desc" } }  ],  "from": 10,  "size": 10,  "_source": "balance", "firstname"}

### 5.2.2 匹配查詢 match-   基本類型 ( 非字符串 ) ，精確匹配```json

GET bank/_search{  "query": {"match": {"account_number": "30"} }}-   字符串，全文檢索```jsonGET bank/_search{  "query": {"match": {  "address": "mill road" } }}

![字符串全文檢索](https://img-blog.csdnimg.cn/img_convert/756f17278649ba144523a516127b0c06.png)> 全文檢索按照評(píng)分進(jìn)行排序，會(huì)對檢索條件進(jìn)行分詞匹配。>> 查詢 `address` 中包含 `mill` 或者 `road` 或者 `mill road` 的所有記錄，并給出相關(guān)性得分。查到了 32 條記錄，最高的一條記錄是 Address = "990 Mill Road"，得分：8.926605. Address="198 Mill Lane" 評(píng)分 5.4032025，只匹配到了 Mill 單詞。### 5.2.3 短語匹配 match_phase將需要匹配的值當(dāng)成一個(gè)整體單詞 ( 不分詞 ) 進(jìn)行檢索```json

GET bank/_search{  "query": {"match_phrase": {  "address": "mill road" } }}> 查出 address 中包含 `mill road` 的所有記錄，并給出相關(guān)性得分### 5.2.4 多字段匹配 multi_match```jsonGET bank/_search{  "query": {

"multi_match": {  "query": "mill land",  "fields": [    "state",    "address" ] } }}

> multi_match 中的 query 也會(huì)進(jìn)行分詞。>> 查詢 `state` 包含 `mill` 或 `land` 或者 `address` 包含 `mill` 或 `land` 的記錄。### 5.2.5 復(fù)合查詢 bool> 復(fù)合語句可以合并任何其他查詢語句，包括復(fù)合語句。復(fù)合語句之間可以相互嵌套，可以表達(dá)復(fù)雜的邏輯。搭配使用 must,must_not,shouldmust: 必須達(dá)到 must 指定的條件。 ( 影響相關(guān)性得分 )must_not: 必須不滿足 must_not 的條件。 ( 不影響相關(guān)性得分 )should: 如果滿足 should 條件，則可以提高得分。如果不滿足，也可以查詢出記錄。 ( 影響相關(guān)性得分 )示例：查詢出地址包含 mill，且性別為 M，年齡不等于 28 的記錄，且優(yōu)先展示 firstname 包含 Winnie 的記錄。```json

GET bank/_search{  "query": {"bool": {  "must": [ {      "match": {        "address": "mill" }    }, {      "match": {        "gender": "M" } }  ],  "must_not": [ {      "match": {        "age": "28" } }  ],  "should": [ {      "match": {        "firstname": "Winnie" } } ] } }}

### 5.2.6 filter 過濾> 不影響相關(guān)性得分，查詢出滿足 filter 條件的記錄。>> 在 bool 中使用。```json

GET bank/_search{  "query": {"bool": {  "filter": [ {      "range": {        "age": {          "gte":18,          "lte":40 } ] }

### 5.2.7 term 查詢> 匹配某個(gè)屬性的值。>> 全文檢索字段用 match，其他非 text 字段匹配用 term>> keyword：文本精確匹配 ( 全部匹配 )>> match_phase：文本短語匹配```json非 text 字段精確匹配GET bank/_search{  "query": {"term": {  "age": "20" }

### 5.2.8 aggregations 聚合> 聚合：從數(shù)據(jù)中分組和提取數(shù)據(jù)。類似于 SQL GROUP BY 和 SQL 聚合函數(shù)。>> Elasticsearch 可以將命中結(jié)果和多個(gè)聚合結(jié)果同時(shí)返回。聚合語法：```json"aggregations" : {"<聚合名稱 1>" : {    "<聚合類型>" : {        <聚合體內(nèi)容>    }    [,"元數(shù)據(jù)" : {  [] }]?    [,"aggregations" : { []+ }]?}[,"聚合名稱 2>" : { ... }]*}-   示例 1：搜索 address 中包含 big 的所有人的年齡分布 ( 前 10 條 ) 以及平均年齡，以及平均薪資```jsonGET bank/_search{  "query": {"match": {  "address": "mill" }  },  "aggs": {"ageAggr": {  "terms": {    "field": "age",    "size": 10   }},"ageAvg": {  "avg": {    "field": "age"  }},"balanceAvg": {  "avg": {    "field": "balance"  }   } }}

檢索結(jié)果如下所示：hits 記錄返回了，三種聚合結(jié)果也返回了，平均年齡 34 隨，平均薪資 25208.0，品駿年齡分布：38 歲的有 2 個(gè)，28 歲的有一個(gè)，32 歲的有一個(gè)![示例 1](https://img-blog.csdnimg.cn/img_convert/0a2b0009deae81ce30b99c430e29bf35.png)如果不想返回 hits 結(jié)果，可以在最后面設(shè)置 size:0```jsonGET bank/_search{  "query": {"match": {  "address": "mill" }  },  "aggs": {"ageAggr": {  "terms": {    "field": "age",    "size": 10  }}  },  "size": 0}-   示例 2：按照年齡聚合，并且查詢這些年齡段的平均薪資從結(jié)果可以看到 31 歲的有 61 個(gè)，平均薪資 28312.9，其他年齡的聚合結(jié)果類似。![示例 2](https://img-blog.csdnimg.cn/img_convert/006ea6426d3d9fb5b74a123bf3099f84.png)-   示例 3：按照年齡分組，然后將分組后的結(jié)果按照性別分組，然后查詢出這些分組后的平均薪資```jsonGET bank/_search{  "query": {"match_all": { }  },  "aggs": {"ageAggr": {  "terms": {    "field": "age",    "size": 10  },  "aggs": {    "genderAggr": {      "terms": {        "field": "gender.keyword",        "size": 10      },      "aggs": {        "balanceAvg": {          "avg": {            "field": "balance"      }    }  }}  } }  },  "size": 0}

從結(jié)果可以看到 31 歲的有 61 個(gè)。其中性別為 `M` 的 35 個(gè)，平均薪資 29565.6，性別為 `F` 的 26 個(gè)，平均薪資 26626.6。其他年齡的聚合結(jié)果類似。![聚合結(jié)果](https://img-blog.csdnimg.cn/img_convert/28f9173a3634bcc2829783f9a89d4053.png)### 5.2.9 Mapping 映射> Mapping 是用來定義一個(gè)文檔 ( document ) ，以及它所包含的屬性 ( field ) 是如何存儲(chǔ)和索引的。-   定義哪些字符串屬性應(yīng)該被看做全文本屬性 ( full text fields )-   定義哪些屬性包含數(shù)字，日期或地理位置-   定義文檔中的所有屬性是否都能被索引 ( _all 配置 )-   日期的格式-   自定義映射規(guī)則來執(zhí)行動(dòng)態(tài)添加屬性Elasticsearch7 去掉 tpye 概念：關(guān)系型數(shù)據(jù)庫中兩個(gè)數(shù)據(jù)庫表示是獨(dú)立的，即使他們里面有相同名稱的列也不影響使用，但 ES 中不是這樣的。elasticsearch 是基于 Lucence 開發(fā)的搜索引擎，而 ES 中不同 type 下名稱相同的 field 最終在 Lucence 中的處理方式是一樣的。為了區(qū)分不同 type 下的同一名稱的字段，Lucence 需要處理沖突，導(dǎo)致檢索效率下降ES7.x 版本：URL 中的 type 參數(shù)為可選。ES8.x 版本：不支持 URL 中的 type 參數(shù)所有類型可以參考文檔：https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-types.html-   查詢索引的映射如查詢 my-index 索引的映射```json

GET /my-index/_mapping返回結(jié)果：{  "my-index" : {"mappings" : {  "properties" : {    "age" : {      "type" : "integer"    },    "email" : {      "type" : "keyword"    },    "employee-id" : {      "type" : "keyword",      "index" : false    },    "name" : {      "type" : "text"  }}  }

-   創(chuàng)建索引并指定映射如創(chuàng)建 my-index 索引，有三個(gè)字段 age,email,name，指定類型為 interge, keyword, text```jsonPUT /my-index{  "mappings": {"properties": {  "age": { "type": "integer" },  "email": { "type": "keyword"  },  "name": { "type": "text" }}

返回結(jié)果：

{  "acknowledged" : true,  "shards_acknowledged" : true,  "index" : "my-index"}

-   添加新的字段映射如在 my-index 索引里面添加 employ-id 字段，指定類型為 keyword```jsonPUT /my-index/_mapping{  "properties": {"employee-id": {  "type": "keyword",  "index": false} }}

-   更新映射> 我們不能更新已經(jīng)存在的映射字段，必須創(chuàng)建新的索引進(jìn)行數(shù)據(jù)遷移。-   數(shù)據(jù)遷移```jsonPOST _reindex{  "source": {"index": "twitter"  },  "dest": {"index": "new_twitter" }}

# 六、中文分詞ES 內(nèi)置了很多種分詞器，但是對中文分詞不友好，所以我們需要借助第三方中文分詞工具包。## 6.1 ES 中的分詞的原理### 6.1.1 ES 的分詞器概念ES 的一個(gè)分詞器 ( tokenizer ) 接收一個(gè)字符流，將其分割為獨(dú)立的詞元 ( tokens ) ，然后輸出詞元流。ES 提供了很多內(nèi)置的分詞器，可以用來構(gòu)建自定義分詞器 ( custom ananlyzers )### 6.1.2 標(biāo)準(zhǔn)分詞器原理比如 stadard tokenizer 標(biāo)準(zhǔn)分詞器，遇到空格進(jìn)行分詞。該分詞器還負(fù)責(zé)記錄各個(gè)詞條 ( term ) 的順序或 position 位置 ( 用于 phrase 短語和 word proximity 詞近鄰查詢 ) 。每個(gè)單詞的字符偏移量 ( 用于高亮顯示搜索的內(nèi)容 ) 。### 6.1.3 英文和標(biāo)點(diǎn)符號(hào)分詞示例查詢示例如下：```jsonPOST _analyze{  "analyzer": "standard",  "text": "Do you know why I want to study ELK? 2 3 33..."}

查詢結(jié)果：```shdo, you, know, why, i, want, to, study, elk, 2,3,33

從查詢結(jié)果可以看到：（1）標(biāo)點(diǎn)符號(hào)沒有分詞。（2）數(shù)字會(huì)進(jìn)行分詞。![英文句子分詞](https://img-blog.csdnimg.cn/img_convert/be6744e495379ec24dc5702daf9a45bd.png)### 6.1.4 中文分詞示例但是這種分詞器對中文的分詞支持不友好，會(huì)將詞語分詞為單獨(dú)的漢字。比如下面的示例會(huì)將 ` 悟空聊架構(gòu) ` 分詞為 ` 悟 `,` 空 `,` 聊 `,` 架 `,` 構(gòu) `，期望分詞為 ` 悟空 `，` 聊 `，` 架構(gòu) `。```json

POST _analyze{  "analyzer": "standard",  "text": "悟空聊架構(gòu)"}

![中文分詞悟空聊架構(gòu)](https://img-blog.csdnimg.cn/img_convert/ba65678cdd7065fe1787ee4ad6216dcf.png)我們可以安裝 ik 分詞器來更加友好的支持中文分詞。## 6.2  安裝 ik 分詞器### 6.2.1 ik 分詞器地址ik 分詞器地址：```js

https://github.com/medcl/elasticsearch-analysis-ik/releases

先檢查 ES 版本，我安裝的版本是 `7.4.2`，所以我們安裝 ik 分詞器的版本也選擇 7.4.2```json

http://192.168.56.10:9200/{  "name" : "8448ec5f3312",  "cluster_name" : "elasticsearch",  "cluster_uuid" : "xC72O3nKSjWavYZ-EPt9Gw",  "version" : {"number" : "7.4.2","build_flavor" : "default","build_type" : "docker","build_hash" : "2f90bbf7b93631e52bafb59b3b049cb44ec25e96","build_date" : "2019-10-28T20:40:44.881551Z","build_snapshot" : false,"lucene_version" : "8.2.0","minimum_wire_compatibility_version" : "6.8.0","minimum_index_compatibility_version" : "6.0.0-beta1"  },  "tagline" : "You Know, for Search"}

![選擇 ik 分詞器](https://img-blog.csdnimg.cn/img_convert/c659d667dcbf7fd51f65582629f2f22b.png)### 6.2.2 安裝 ik 分詞器的方式#### 6.2.2.1 方式一：容器內(nèi)安裝 ik 分詞器-   進(jìn)入 es 容器內(nèi)部 plugins 目錄```sh

docker exec -it <容器 id> /bin/bash

-   獲取 ik 分詞器壓縮包```sh

wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.4.2/elasticsearch-analysis-ik-7.4.2.zip

-   解壓縮 ik 壓縮包```sh

unzip 壓縮包

-   刪除下載的壓縮包```sh

rm -rf *.zip

#### 6.2.2.2 方式二：映射文件安裝 ik 分詞器進(jìn)入到映射文件夾```sh

cd /mydata/elasticsearch/plugins

下載安裝包```sh

wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.4.2/elasticsearch-analysis-ik-7.4.2.zip

-   解壓縮 ik 壓縮包```sh

unzip 壓縮包

-   刪除下載的壓縮包```sh

rm -rf *.zip

#### 6.2.2.3 方式三：Xftp 上傳壓縮包到映射目錄先用 XShell 工具連接虛擬機(jī) ( 操作步驟可以參考之前寫的文章 [02. 快速搭建 Linux 環(huán)境-運(yùn)維必備](http://www.passjava.cn/#/01.PassJava/03.Deploy/01.環(huán)境搭建篇)) ，然后用 Xftp 將下載好的安裝包復(fù)制到虛擬機(jī)。![Xftp 上傳壓縮包](https://img-blog.csdnimg.cn/img_convert/cf64999a4ee2ea9bc853ed793909f25d.png)## 6.3 解壓 ik 分詞器到容器中-   如果沒有安裝 unzip 解壓工具，則安裝 unzip 解壓工具。```sh

apt install unzip

-   解壓 ik 分詞器到當(dāng)前目錄的 ik 文件夾下。命令格式：unzip 實(shí)例：```sh

unzip ELK-IKv7.4.2.zip -d ./ik

![解壓 ik 分詞器](https://img-blog.csdnimg.cn/img_convert/7c7d06d44f5f0f59bac69f479d5d5fcf.png)-   修改文件夾權(quán)限為可讀可寫。```sh

chmod -R 777 ik/

-   刪除 ik 分詞器壓縮包```sh

rm ELK-IKv7.4.2.zip

## 6.4 檢查 ik 分詞器安裝-   進(jìn)入到容器中```sh

docker exec -it <容器 id> /bin/bash

-   查看 Elasticsearch 的插件```sh

elasticsearch-plugin list

結(jié)果如下，說明 ik 分詞器安裝好了。是不是很簡單。```sh

![ik 分詞器插件](https://img-blog.csdnimg.cn/img_convert/6657e700440bf7d67ecaec68513293c4.png)然后退出 Elasticsearch 容器，并重啟 Elasticsearch 容器```sh

exit

docker restart elasticsearch

## 6.5 使用 ik 中文分詞器ik 分詞器有兩種模式-   智能分詞模式 ( ik_smart )-   最大組合分詞模式 ( ik_max_word )我們先看下 ` 智能分詞 ` 模式的效果。比如對于 ` 一顆小星星 ` 進(jìn)行中文分詞，得到的兩個(gè)詞語：` 一顆 `、` 小星星 `我們在 Dev Tools Console 輸入如下查詢```json

POST _analyze{  "analyzer": "ik_smart",  "text": "一顆小星星"}

得到如下結(jié)果，被分詞為 一顆和小星星。![一顆小星星分詞結(jié)果](https://img-blog.csdnimg.cn/img_convert/4d9c24eeda57ed9901b6e416e3607f19.png)再來看下 ` 最大組合分詞模式 `。輸入如下查詢語句。```json

POST _analyze{  "analyzer": "ik_max_word",  "text": "一顆小星星"}

` 一顆小星星 ` 被分成了 6 個(gè)詞語：一顆、一、顆、小星星、小星、星星。![一顆小星星分詞結(jié)果](https://img-blog.csdnimg.cn/img_convert/5a7c4cd0f4705f015c200f5b59a42e8b.png)我們再來看下另外一個(gè)中文分詞。比如搜索悟空哥聊架構(gòu)，期望結(jié)果：悟空哥、聊、架構(gòu)三個(gè)詞語。實(shí)際結(jié)果：悟、空哥、聊、架構(gòu)四個(gè)詞語。ik 分詞器將悟空哥分詞了，認(rèn)為 ` 空哥 ` 是一個(gè)詞語。所以需要讓 ik 分詞器知道 ` 悟空哥 ` 是一個(gè)詞語，不需要拆分。那怎么辦做呢？![悟空哥聊架構(gòu)分詞](https://img-blog.csdnimg.cn/img_convert/03569becc311d0b9cc9b7cb420740183.png) ## 6.6 自定義分詞詞庫### 6.6.1 自定義詞庫的方案- 方案  新建一個(gè)詞庫文件，然后在 ik 分詞器的配置文件中指定分詞詞庫文件的路徑。可以指定本地路徑，也可以指定遠(yuǎn)程服務(wù)器文件路徑。這里我們使用遠(yuǎn)程服務(wù)器文件的方案，因?yàn)檫@種方案可以支持熱更新 ( 更新服務(wù)器文件，ik 分詞詞庫也會(huì)重新加載 ) 。- 修改配置文件ik 分詞器的配置文件在容器中的路徑：```sh

/usr/share/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml。修改這個(gè)文件可以通過修改映射文件，文件路徑：```sh/mydata/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml編輯配置文件：```shvim /mydata/elasticsearch/plugins/ik/config/IKAnalyzer.cfg.xml配置文件內(nèi)容如下所示：```xml

IK Analyzer 擴(kuò)展配置

custom/mydict.dic;custom/single_word_low_freq.dic

custom/ext_stopword.dic

location

http://xxx.com/xxx.dic

修改配置 `remote_ext_dict` 的屬性值，指定一個(gè) 遠(yuǎn)程網(wǎng)站文件的路徑，比如 http://www.xxx.com/ikwords.text。這里我們可以自己搭建一套 nginx 環(huán)境，然后把 ikwords.text 放到 nginx 根目錄。### 6.6.2 搭建 nginx 環(huán)境方案：首先獲取 nginx 鏡像，然后啟動(dòng)一個(gè) nginx 容器，然后將 nginx 的配置文件拷貝到根目錄，再刪除原 nginx 容器，再用映射文件夾的方式來重新啟動(dòng) nginx 容器。-   通過 docker 容器安裝 nginx 環(huán)境。```sh

docker run -p 80:80 --name nginx -d nginx:1.10

-   拷貝 nginx 容器的配置文件到 mydata 目錄的 conf 文件夾```sh

cd /mydata

docker container cp nginx:/etc/nginx ./conf

-   mydata 目錄 里面創(chuàng)建 nginx 目錄```sh

mkdir nginx

-   移動(dòng) conf 文件夾到 nginx 映射文件夾```sh

mv conf nginx/

-   終止并刪除原 nginx 容器```sh

docker stop nginx

docker rm <容器 id>

-   啟動(dòng)新的容器```sh

docker run -p 80:80 --name nginx \

-v /mydata/nginx/html:/usr/share/nginx/html \

-v /mydata/nginx/logs:/var/log/nginx \

-v /mydata/nginx/conf:/etc/nginx \

-d nginx:1.10

-   訪問 nginx 服務(wù)```sh

192.168.56.10

報(bào) 403 Forbidden, nginx/1.10.3 則表示 nginx 服務(wù)正常啟動(dòng)。403 異常的原因是 nginx 服務(wù)下沒有文件。-   nginx 目錄新建一個(gè) html 文件```sh

cd /mydata/nginx/html

vim index.html

hello passjava

- 再次訪問 nginx 服務(wù)  瀏覽器打印 hello passjava。說明訪問 nginx 服務(wù)的頁面沒有問題。- 創(chuàng)建 ik 分詞詞庫文件```sh

cd /mydata/nginx/html

mkdir ik

cd ik

vim ik.txt

填寫 ` 悟空哥 `，并保存文件。-   訪問詞庫文件```sh

http://192.168.56.10/ik/ik.txt

瀏覽器會(huì)輸出一串亂碼，可以先忽略亂碼問題。說明詞庫文件可以訪問到。-   修改 ik 分詞器配置```sh

cd /mydata/elasticsearch/plugins/ik/config

vim IKAnalyzer.cfg.xml

![修改 ik 分詞器配置](https://img-blog.csdnimg.cn/img_convert/6c7b8b9c8f4ad02efe7aa5211ffbdbca.png)-   重啟 elasticsearch 容器并設(shè)置每次重啟機(jī)器后都啟動(dòng) elasticsearch 容器。```sh

docker restart elasticsearch

docker update elasticsearch --restart=always

再次查詢分詞結(jié)果

可以看到 悟空哥聊架構(gòu)被拆分為 悟空哥、聊、架構(gòu)三個(gè)詞語，說明自定義詞庫中的 悟空哥有作用。

自定義詞庫后的分詞結(jié)果

七、寫在最后

中篇和下篇繼續(xù)肝，加油沖呀！

中篇：實(shí)戰(zhàn) ES 應(yīng)用。下篇： ES 的集群部署。

我是悟空哥，努力變強(qiáng)，變身超級(jí)賽亞人！我們下期見！

要聞	民生	國內(nèi)	國際	時(shí)訊	焦點(diǎn)	科技	聚焦	圖片	看點(diǎn)
社會(huì)	IT	游戲	女人	房產(chǎn)	推薦	旅游	科技	財(cái)經(jīng)	資訊

国产免费成人在线视频_天天做天天爱天天爽综合网_国产精品男女猛烈高潮激情_久久久精品国产免大香伊

今日快看!【ES三周年】2 萬字長文，帶你深入理解 Elasticsearch

前言