页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

字符过滤器用于字符流传递到分词器(tokenizer)之前对它进行预处理。

字符过滤器接收原始文本作为字符流,通过添加,删除或更改字符来转换流。举个例子:可以使用字符过滤器将Arabic numerals(阿拉伯数字) (٠‎١٢٣٤٥٦٧٨‎٩‎) 转换为和它等价的Latin (拉丁数字)(0123456789),也可以用于从字符流中剥离<b>等HTML元素。

Elasticsearch内置了许多的字符过滤器用于构建自定义分析器。

ApacheCNApache中文网

Character filters(字符过滤器)用于字符流传递到分词器(tokenizer)之前对它进行预处理。

一个 Character filters(字符过滤器)接收原始文本作为字符流,通过 adding添加),removing删除)或 changing更改)字符来转换流。例如,可以使用字符过滤器将 Arabic numerals(阿拉伯数字)(٠‎١٢٣٤٥٦٧٨‎٩‎)转换为和它等价的 Latin(拉丁数字)(0123456789),也可以用于从字符流中剥离 <b>HTML 元素。

Elasticsearch 内置了许多的 character filters字符过滤器),可以用来构建 custom analyzers(自定义分词器)。

HTML Strip Character Filter

html_strip

character filter  可以删除类似<b>的HTML元素和解码类似于

字符串过滤器可以删除类似 <b>HTML 元素和解码类似于 &amp

;HTML实体

这样的 HTML 实体。

 

Mapping Character Filter

Mapping Character Filter  可以将所有指定的字符串替换成特定的字符串。

 

mapping 字符串过滤器可以将所有指定的字符串替换成特定的字符串。

Pattern Replace Character FilterPattern Replace Character Filter 可以将满足正则表达式的所有字符串替换成特定的字符串

pattern_replace 字符串过滤器可以将满足正则表达式的所有字符串替换成特定的字符串