Link Search Menu Expand Document Documentation Menu

字符过滤器

字符过滤器在分词之前处理文本,以便为进一步的分析做准备。

与对词元(单词或术语)进行操作的 Token 过滤器不同,字符过滤器在分词之前处理原始输入文本。它们对于清理或转换包含不需要字符(如 HTML 标签或特殊符号)的结构化文本特别有用。字符过滤器有助于剥离或替换这些元素,以便文本能够正确格式化以进行分析。

字符过滤器的用例包括

  • HTML 剥离html_strip 字符过滤器从内容中删除 HTML 标签,以便只索引纯文本。
  • 模式替换pattern_replace 字符过滤器替换或删除文本中不需要的字符或模式,例如,将连字符转换为空格。
  • 自定义映射mapping 字符过滤器将特定字符或序列替换为其他值,例如,将货币符号转换为其文本等价物。
剩余 350 字符

有问题?

想贡献?