页面树结构

2017-11-09 ApacheCN 开源组织,第二期邀请成员活动,一起走的更远 : http://www.apachecn.org/member/209.html


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

Character filters(字符过滤器)用于字符流传递到分词器(tokenizer)之前对它进行预处理。

一个 Character filters(字符过滤器)接收原始文本作为字符流,通过 adding添加),removing删除)或 changing更改)字符来转换流。例如,可以使用字符过滤器将 Arabic numerals(阿拉伯数字)(٠‎١٢٣٤٥٦٧٨‎٩‎)转换为和它等价的 Latin(拉丁数字)(0123456789),也可以用于从字符流中剥离 <b>HTML 元素。

Elasticsearch 内置了许多的 character filters字符过滤器),可以用来构建 custom analyzers(自定义分词器)。

HTML Strip Character Filter

html_strip 字符串过滤器可以删除类似 <b>HTML 元素和解码类似于 &amp 这样的 HTML 实体。

Mapping Character Filter

mapping 字符串过滤器可以将所有指定的字符串替换成特定的字符串。

Pattern Replace Character Filter

pattern_replace 字符串过滤器可以将满足正则表达式的所有字符串替换成特定的字符串