深度学习模型分析器
深度学习 (DL) 模型分析器旨在与神经稀疏搜索配合使用。它们实现了机器学习 (ML) 模型使用的相同分词规则,确保与神经稀疏搜索兼容。传统 OpenSearch 分析器使用标准基于规则的分词(例如空格或单词边界),而 DL 模型分析器使用与特定 ML 模型(例如 BERT 的 WordPiece 分词方案)匹配的分词规则。这种索引文档和搜索查询之间的一致分词对于神经稀疏搜索的正常工作至关重要。
OpenSearch 支持以下 DL 模型分析器
bert-uncased
: 基于 google-bert/bert-base-uncased 模型分词器的分析器。mbert-uncased
: 基于 google-bert/bert-base-multilingual-uncased 模型分词器的多语言分析器。
使用注意事项
使用 DL 模型分析器时,请牢记以下注意事项
- 这些分析器使用惰性加载。首次调用这些分析器可能需要更长时间,因为会加载依赖项和相关资源。
- 分词器遵循其相应模型分词器的相同规则。
bert-uncased 分析器
bert-uncased
分析器基于 google-bert/bert-base-uncased 模型,并根据 BERT 的 WordPiece 分词方案对文本进行分词。此分析器特别适用于英文文本。
要使用 bert-uncased
分析器分析文本,请在 analyzer
字段中将其指定
POST /_analyze
{
"analyzer": "bert-uncased",
"text": "It's fun to contribute to OpenSearch!"
}
mbert-uncased 分析器
mbert-uncased
分析器基于 google-bert/bert-base-multilingual-uncased 模型,该模型支持跨多种语言的分词。这使其适用于处理多语言内容的应用程序。
要分析多语言文本,请在请求中指定 mbert-uncased
分析器
POST /_analyze
{
"analyzer": "mbert-uncased",
"text": "It's fun to contribute to OpenSearch!"
}
示例
有关在神经稀疏搜索查询中使用 DL 模型分析器的完整示例,请参阅自动生成稀疏向量嵌入。