字符过滤器
字符过滤器在分词之前处理文本,以便为进一步的分析做准备。
与对词元(单词或术语)进行操作的 Token 过滤器不同,字符过滤器在分词之前处理原始输入文本。它们对于清理或转换包含不需要字符(如 HTML 标签或特殊符号)的结构化文本特别有用。字符过滤器有助于剥离或替换这些元素,以便文本能够正确格式化以进行分析。
字符过滤器的用例包括
- HTML 剥离:
html_strip
字符过滤器从内容中删除 HTML 标签,以便只索引纯文本。 - 模式替换:
pattern_replace
字符过滤器替换或删除文本中不需要的字符或模式,例如,将连字符转换为空格。 - 自定义映射:
mapping
字符过滤器将特定字符或序列替换为其他值,例如,将货币符号转换为其文本等价物。