页面树结构

2017-11-09 ApacheCN 开源组织,第二期邀请成员活动,一起走的更远 : http://www.apachecn.org/member/209.html


MachineLearning 优酷地址 : http://i.youku.com/apachecn

转至元数据结尾
转至元数据起始

简述

fingerprint过滤器发出单个token,该token对于指纹身份的文本和/或提供可以被聚类的token是有用的。 它通过排序token,重复数据删除,然后将它们连接回单个token来实现。


示例

如文本:["the", "quick", "quick", "brown", "fox", "was", "very", "brown"],将会被转化为单个token: "brown fox quick the very was",注意token是按字母顺序排列的,并且只有一个"quick" 。

参数

设置描述

separator

默认为空格。

max_output_size

默认为255 。

最大token大小

因为一个字段可能有许多独特的token,所以重要的是设置一个阈值,使得字段不会变得太大。 max_output_size设置控制此行为。 如果连接的指纹增长大于max_output_size ,则过滤器将退出并且不会发出token(例如,该字段将为空)。

  • 无标签