摄入管道
摄取管道 (ingest pipeline) 是一系列处理器的组合,用于在文档摄取到索引时对其进行处理。管道中的每个处理器都执行特定任务,例如过滤、转换或丰富数据。
处理器是可定制的任务,按照它们在请求体中出现的顺序依次运行。这个顺序很重要,因为每个处理器都依赖于上一个处理器的输出。经过处理器修改的文档会在应用处理器后出现在您的索引中。
OpenSearch 摄取管道与 Data Prepper 对比
OpenSearch 摄取管道在 OpenSearch 集群内部运行,而 Data Prepper 是在 OpenSearch 集群上运行的外部组件。
OpenSearch 摄取管道对索引执行操作,更适用于涉及简单数据集预处理、机器学习 (ML) 处理器和向量嵌入处理器的用例。OpenSearch 摄取管道推荐用于简单数据预处理和小型数据集。
Data Prepper 推荐用于它支持的任何数据处理任务,尤其是在处理大型数据集和复杂数据预处理需求时。它简化了传输和获取大型数据集的过程,同时为复杂的数据准备和转换操作提供了强大的功能。有关更多信息,请参阅 Data Prepper 文档。
OpenSearch 摄取管道只能使用 摄取 API 操作进行管理。
先决条件
使用 OpenSearch 摄取管道的先决条件如下:
- 在生产环境中使用摄取功能时,您的集群应包含至少一个节点,其节点角色权限设置为
ingest
。有关在集群中设置节点角色的信息,请参阅集群组成。 - 如果启用了 OpenSearch 安全插件,您必须拥有
cluster_manage_pipelines
权限才能管理摄取管道。
定义管道
管道定义描述了摄取管道的序列,可以采用 JSON 格式编写。摄取管道包含以下内容:
{
"description" : "..."
"processors" : [...]
}
请求正文字段
字段 | 必需 | 类型 | 描述 |
---|---|---|---|
处理器 | 必需 | 处理器对象数组 | 在数据摄取到 OpenSearch 时执行特定数据处理任务的组件。 |
描述 | 可选 | 字符串 | 摄取管道的描述。 |
后续步骤
了解如何