深度学习模型分析器

深度学习 (DL) 模型分析器旨在与神经稀疏搜索配合使用。它们实现了机器学习 (ML) 模型使用的相同分词规则，确保与神经稀疏搜索兼容。传统 OpenSearch 分析器使用标准基于规则的分词（例如空格或单词边界），而 DL 模型分析器使用与特定 ML 模型（例如 BERT 的 WordPiece 分词方案）匹配的分词规则。这种索引文档和搜索查询之间的一致分词对于神经稀疏搜索的正常工作至关重要。

OpenSearch 支持以下 DL 模型分析器

bert-uncased: 基于 google-bert/bert-base-uncased 模型分词器的分析器。
mbert-uncased: 基于 google-bert/bert-base-multilingual-uncased 模型分词器的多语言分析器。

使用注意事项

使用 DL 模型分析器时，请牢记以下注意事项

这些分析器使用惰性加载。首次调用这些分析器可能需要更长时间，因为会加载依赖项和相关资源。
分词器遵循其相应模型分词器的相同规则。

bert-uncased 分析器

bert-uncased 分析器基于 google-bert/bert-base-uncased 模型，并根据 BERT 的 WordPiece 分词方案对文本进行分词。此分析器特别适用于英文文本。

要使用 bert-uncased 分析器分析文本，请在 analyzer 字段中将其指定

POST /_analyze
{
  "analyzer": "bert-uncased",
  "text": "It's fun to contribute to OpenSearch!"
}

mbert-uncased 分析器

mbert-uncased 分析器基于 google-bert/bert-base-multilingual-uncased 模型，该模型支持跨多种语言的分词。这使其适用于处理多语言内容的应用程序。

要分析多语言文本，请在请求中指定 mbert-uncased 分析器

POST /_analyze
{
  "analyzer": "mbert-uncased",
  "text": "It's fun to contribute to OpenSearch!"
}

示例

有关在神经稀疏搜索查询中使用 DL 模型分析器的完整示例，请参阅自动生成稀疏向量嵌入。

使用注意事项
bert-uncased 分析器
mbert-uncased 分析器
示例

此页面有帮助吗？

✔ 是 ✖ 否

告诉我们原因

剩余 350 字符

有问题？在 OpenSearch 论坛上提问。

想要贡献？编辑此页面或创建问题。

深度学习模型分析器

使用注意事项

bert-uncased 分析器

mbert-uncased 分析器

示例

OpenSearch 链接

参与其中

资源

联系我们