向量搜索基础

向量搜索，也称为相似性搜索或最近邻搜索，是一种强大的技术，用于查找与给定输入最相似的项目。用例包括理解用户意图的语义搜索、推荐（例如，音乐应用中的“您可能喜欢的其他歌曲”功能）、图像识别和欺诈检测。有关向量搜索的更多背景信息，请参阅最近邻搜索。

向量嵌入

与依赖精确关键词匹配的传统搜索方法不同，向量搜索使用向量嵌入——文本、图像或音频等数据的数值表示。这些嵌入以多维向量的形式存储，捕捉含义、上下文或结构中更深层次的模式和相似性。例如，大型语言模型 (LLM) 可以根据输入文本创建向量嵌入，如下图所示。

相似性搜索

向量嵌入是高维空间中的一个向量。其位置和方向捕捉了对象之间有意义的关系。向量搜索通过将查询向量与存储的向量进行比较并返回最接近的匹配项来查找最相似的结果。OpenSearch 使用 k 最近邻 (k-NN) 算法来高效识别最相似的向量。与依赖精确词语匹配的关键词搜索不同，向量搜索通过衡量高维空间中的距离来衡量相似性。

在下图中，Wild West 和 Broncos 的向量彼此更接近，而它们都远离 Basketball，这反映了它们在语义上的差异。