Link Search Menu Expand Document Documentation Menu

摄入管道

摄取管道 (ingest pipeline) 是一系列处理器的组合,用于在文档摄取到索引时对其进行处理。管道中的每个处理器都执行特定任务,例如过滤、转换或丰富数据。

处理器是可定制的任务,按照它们在请求体中出现的顺序依次运行。这个顺序很重要,因为每个处理器都依赖于上一个处理器的输出。经过处理器修改的文档会在应用处理器后出现在您的索引中。

OpenSearch 摄取管道与 Data Prepper 对比

OpenSearch 摄取管道在 OpenSearch 集群内部运行,而 Data Prepper 是在 OpenSearch 集群上运行的外部组件。

OpenSearch 摄取管道对索引执行操作,更适用于涉及简单数据集预处理、机器学习 (ML) 处理器向量嵌入处理器的用例。OpenSearch 摄取管道推荐用于简单数据预处理和小型数据集。

Data Prepper 推荐用于它支持的任何数据处理任务,尤其是在处理大型数据集和复杂数据预处理需求时。它简化了传输和获取大型数据集的过程,同时为复杂的数据准备和转换操作提供了强大的功能。有关更多信息,请参阅 Data Prepper 文档。

OpenSearch 摄取管道只能使用 摄取 API 操作进行管理。

先决条件

使用 OpenSearch 摄取管道的先决条件如下:

  • 在生产环境中使用摄取功能时,您的集群应包含至少一个节点,其节点角色权限设置为 ingest。有关在集群中设置节点角色的信息,请参阅集群组成
  • 如果启用了 OpenSearch 安全插件,您必须拥有 cluster_manage_pipelines 权限才能管理摄取管道。

定义管道

管道定义描述了摄取管道的序列,可以采用 JSON 格式编写。摄取管道包含以下内容:

{
    "description" : "..."
    "processors" : [...]
}

请求正文字段

字段 必需 类型 描述
处理器 必需 处理器对象数组 在数据摄取到 OpenSearch 时执行特定数据处理任务的组件。
描述 可选 字符串 摄取管道的描述。

后续步骤

了解如何

剩余 350 字符

有问题?

想贡献?