tokenizer 和 analyzer 的关系

Elasticsearch

发布日期: 2023-02-01

文章字数: 331

阅读时长: 1 分

Tokenizer、Token-filter 和 analyzer：

1、Tokenizer（分词器）

分词，就是将一个字符串，按照某种特定规则打散为多个字符串的过程。

2、Token-filter（分词过滤器）

分词过滤器，是对分词器处理后得到的子字符串，进行字符的修改。（例如：大小写转换、时态、复数……）

3、Analyzer（分析器）

分析器是分词器和分词过滤器的结合。

ES 使用分析器（Analyzer）对文档进行分词，ES 中内置了很多分析器供我们使用，我们也可以定制自己的分析器。

一个分析器有 3 个组成部分，分析过程会依次经过这些部分：

也就是说，分词器就是划分子字符串，分词过滤器就是子字符串的格式转换，分析器是两者结合。

tokenizer和analyzer的关系图

Pudding

https://wu3227834.github.io/2023/01/31/2023-02-15-fen-ci-qi-xiang-guan/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Pudding !

Elasticsearch

2023-02-01 linux 命令

linux

2023-01-23 极客时间——学习笔记

k8s 学习笔记