使用 OpenAI 嵌入模型进行语义搜索

本教程展示了如何使用 OpenAI 嵌入模型在 Amazon OpenSearch 服务中实现语义搜索。更多信息，请参阅语义搜索。

如果使用 Python，可以使用 opensearch-py-ml 客户端 CLI 创建 OpenAI 连接器并测试模型。CLI 自动化了许多配置步骤，使得设置更快，并减少了出错的可能性。有关使用 CLI 的更多信息，请参阅 CLI 文档。

如果使用自管理的 OpenSearch 而非 Amazon OpenSearch 服务，请使用蓝图创建到 OpenAI 模型的连接器。

或者，您可以使用 AIConnectorHelper notebook 设置嵌入模型。

将以 your_ 为前缀的占位符替换为您自己的值。

先决条件：创建 OpenSearch 集群

前往 Amazon OpenSearch Service 控制台并创建一个 OpenSearch 域。

记下域 Amazon Resource Name (ARN)；您将在后续步骤中使用它。

步骤 1：将 API 密钥存储在 AWS Secrets Manager 中

将您的 OpenAI API 密钥存储在 AWS Secrets Manager 中

打开 AWS Secrets Manager。
选择 Store a new secret（存储新密钥）。
选择 Other type of secret（其他类型的密钥）。
创建键值对，其中 my_openai_key 作为键，您的 OpenAI API 密钥作为值。
将您的密钥命名为 my_test_openai_secret。

记下密钥 ARN；您将在后续步骤中使用它。

步骤 2：创建 IAM 角色

要使用在步骤 1 中创建的密钥，您必须创建一个具有该密钥读取权限的 AWS 身份和访问管理 (IAM) 角色。此 IAM 角色将在连接器中配置，并允许连接器读取密钥。

前往 IAM 控制台，创建一个名为 my_openai_secret_role 的新 IAM 角色，并添加以下信任策略和权限

自定义信任策略

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "es.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        }
    ]
}

权限

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "secretsmanager:GetSecretValue",
                "secretsmanager:DescribeSecret"
            ],
            "Effect": "Allow",
            "Resource": "your_secret_arn_created_in_step1"
        }
    ]
}

记下角色 ARN；您将在后续步骤中使用它。

步骤 3：在 Amazon OpenSearch Service 中配置 IAM 角色

按照以下步骤在 Amazon OpenSearch Service 中配置 IAM 角色。

步骤 3.1：为签署连接器请求创建 IAM 角色

专门为签署您的创建连接器 API 请求生成一个新的 IAM 角色。

创建一个名为 my_create_openai_connector_role 的 IAM 角色，并添加以下信任策略和权限

自定义信任策略

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "AWS": "your_iam_user_arn"
            },
            "Action": "sts:AssumeRole"
        }
    ]
}

您将使用 your_iam_user_arn IAM 用户在步骤 4.1 中承担该角色。

权限

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "iam:PassRole",
            "Resource": "your_iam_role_arn_created_in_step2"
        },
        {
            "Effect": "Allow",
            "Action": "es:ESHttpPost",
            "Resource": "your_opensearch_domain_arn_created"
        }
    ]
}

记下此角色 ARN；您将在后续步骤中使用它。

步骤 3.2：映射后端角色

按照以下步骤映射后端角色

登录 OpenSearch Dashboards，并在顶部菜单中选择 Security（安全）。
选择 Roles（角色），然后选择 ml_full_access 角色。
在 ml_full_access 角色详情页面，选择 Mapped users（已映射用户），然后选择 Manage mapping（管理映射）。
在 后端角色 字段中输入在步骤 3.1 中创建的 IAM 角色 ARN，如下图所示。
选择 Map（映射）。

IAM 角色现已成功在您的 OpenSearch 集群中配置。

步骤 4：创建连接器

按照以下步骤为 OpenAI 模型创建连接器。有关创建连接器的更多信息，请参阅连接器。

步骤 4.1：获取临时凭证

使用步骤 3.1 中指定的 IAM 用户的凭证来承担角色

aws sts assume-role --role-arn your_iam_role_arn_created_in_step3.1 --role-session-name your_session_name

从响应中复制临时凭证，并将其配置在 ~/.aws/credentials 中

[default]
AWS_ACCESS_KEY_ID=your_access_key_of_role_created_in_step3.1
AWS_SECRET_ACCESS_KEY=your_secret_key_of_role_created_in_step3.1
AWS_SESSION_TOKEN=your_session_token_of_role_created_in_step3.1

步骤 4.2：创建连接器

使用在 ~/.aws/credentials 中配置的临时凭证运行以下 Python 代码

import boto3
import requests 
from requests_aws4auth import AWS4Auth

host = 'your_amazon_opensearch_domain_endpoint_created'
region = 'your_amazon_opensearch_domain_region'
service = 'es'

credentials = boto3.Session().get_credentials()
awsauth = AWS4Auth(credentials.access_key, credentials.secret_key, region, service, session_token=credentials.token)

path = '/_plugins/_ml/connectors/_create'
url = host + path

payload = {
  "name": "OpenAI embedding model connector",
  "description": "Connector for OpenAI embedding model",
  "version": "1.0",
  "protocol": "http",
  "credential": {
    "secretArn": "your_secret_arn_created_in_step1",
    "roleArn": "your_iam_role_arn_created_in_step2"
  },
  "parameters": {
    "model": "text-embedding-ada-002"
  },
  "actions": [
    {
      "action_type": "predict",
      "method": "POST",
      "url": "https://api.openai.com/v1/embeddings",
      "headers": {
        "Authorization": "Bearer ${credential.secretArn.my_openai_key}"
      },
      "request_body": "{ \"input\": ${parameters.input}, \"model\": \"${parameters.model}\" }",
      "pre_process_function": "connector.pre_process.openai.embedding",
      "post_process_function": "connector.post_process.openai.embedding"
    }
  ]
}

headers = {"Content-Type": "application/json"}

r = requests.post(url, auth=awsauth, json=payload, headers=headers)
print(r.text)

脚本将输出连接器 ID

{"connector_id":"OBUSRI0BTaDH9c7tUxfU"}

记下连接器 ID；您将在下一步中使用它。

步骤 5：创建和测试模型

创建模型组

 POST /_plugins/_ml/model_groups/_register
 {
     "name": "OpenAI_embedding_model",
     "description": "Test model group for OpenAI embedding model"
 }

响应包含模型组 ID

 {
   "model_group_id": "ORUSRI0BTaDH9c7t9heA",
   "status": "CREATED"
 }

注册模型

 POST /_plugins/_ml/models/_register
 {
   "name": "OpenAI embedding model",
   "function_name": "remote",
   "description": "test embedding model",
   "model_group_id": "ORUSRI0BTaDH9c7t9heA",
   "connector_id": "OBUSRI0BTaDH9c7tUxfU"
 }

响应包含模型 ID

 {
   "task_id": "OhUTRI0BTaDH9c7tLhcv",
   "status": "CREATED",
   "model_id": "OxUTRI0BTaDH9c7tLhdE"
 }

部署模型

 POST /_plugins/_ml/models/OxUTRI0BTaDH9c7tLhdE/_deploy

响应包含部署操作的任务 ID

 {
   "task_id": "PkoTRI0BOhavBOmfkCmF",
   "task_type": "DEPLOY_MODEL",
   "status": "COMPLETED"
 }

测试模型

 POST /_plugins/_ml/models/OxUTRI0BTaDH9c7tLhdE/_predict
 {
   "parameters": {
     "input": ["hello world", "how are you"]
   }
 }

响应包含模型生成的嵌入

 {
   "inference_results": [
     {
       "output": [
         {
           "name": "sentence_embedding",
           "data_type": "FLOAT32",
           "shape": [
             1536
           ],
           "data": [
             -0.014907048,
             0.0013432145,
             -0.01851529,
             ...]
         },
         {
           "name": "sentence_embedding",
           "data_type": "FLOAT32",
           "shape": [
             1536
           ],
           "data": [
             -0.014011521,
             -0.0067330617,
             -0.011700075,
             ...]
         }
       ],
       "status_code": 200
     }
   ]
 }

步骤 6：配置语义搜索

按照以下步骤配置语义搜索。

步骤 6.1：创建摄取管道

首先，创建一个摄取管道，该管道使用模型从输入文本创建嵌入

PUT /_ingest/pipeline/my_openai_embedding_pipeline
{
    "description": "text embedding pipeline",
    "processors": [
        {
            "text_embedding": {
                "model_id": "your_embedding_model_id_created_in_step5",
                "field_map": {
                    "text": "text_knn"
                }
            }
        }
    ]
}

步骤 6.2：创建向量索引

接下来，创建一个用于存储输入文本和生成嵌入的向量索引

PUT my_index
{
  "settings": {
    "index": {
      "knn.space_type": "cosinesimil",
      "default_pipeline": "my_openai_embedding_pipeline",
      "knn": "true"
    }
  },
  "mappings": {
    "properties": {
      "text_knn": {
        "type": "knn_vector",
        "dimension": 1536
      }
    }
  }
}

步骤 6.3：摄取数据

将示例文档摄取到索引中

POST /my_index/_doc/1000001
{
    "text": "hello world."
}

步骤 6.4：搜索索引

运行向量搜索以从向量索引中检索文档

POST /my_index/_search
{
  "query": {
    "neural": {
      "text_knn": {
        "query_text": "hello",
        "model_id": "your_embedding_model_id_created_in_step5",
        "k": 100
      }
    }
  },
  "size": "1",
  "_source": ["text"]
}

先决条件：创建 OpenSearch 集群
步骤 1：将 API 密钥存储在 AWS Secrets Manager 中
步骤 2：创建 IAM 角色
步骤 3：在 Amazon OpenSearch Service 中配置 IAM 角色
- 步骤 3.1：为签署连接器请求创建 IAM 角色
- 步骤 3.2：映射后端角色
步骤 4：创建连接器
- 步骤 4.1：获取临时凭证
- 步骤 4.2：创建连接器
步骤 5：创建和测试模型
步骤 6：配置语义搜索

此页面有帮助吗？

✔ 是 ✖ 否

告诉我们原因

剩余 350 字符

有问题？在 OpenSearch 论坛上提问。

想做贡献？编辑此页面或创建问题。

使用 OpenAI 嵌入模型进行语义搜索

先决条件：创建 OpenSearch 集群

步骤 1：将 API 密钥存储在 AWS Secrets Manager 中

步骤 2：创建 IAM 角色

步骤 3：在 Amazon OpenSearch Service 中配置 IAM 角色

步骤 3.1：为签署连接器请求创建 IAM 角色

步骤 3.2：映射后端角色

步骤 4：创建连接器

步骤 4.1：获取临时凭证

步骤 4.2：创建连接器

步骤 5：创建和测试模型

步骤 6：配置语义搜索

步骤 6.1：创建摄取管道

步骤 6.2：创建向量索引

步骤 6.3：摄取数据

步骤 6.4：搜索索引

OpenSearch 链接

参与其中

资源

联系我们