语料库
corpora
元素包含工作负载使用的所有文档语料库。您可以通过复制和粘贴任何语料库定义来在不同工作负载之间使用文档语料库。
示例
以下示例定义了一个名为 movies
的单个语料库,包含 11658903
个文档和 1544799789
个未压缩字节。
"corpora": [
{
"name": "movies",
"documents": [
{
"source-file": "movies-documents.json",
"document-count": 11658903, # Fetch document count from command line
"uncompressed-bytes": 1544799789 # Fetch uncompressed bytes from command line
}
]
}
]
配置选项
将以下选项与 corpora
一起使用。
参数 | 必需 | 类型 | 描述 |
---|---|---|---|
名称 | 是 | 字符串 | 文档语料库的名称。因为 OpenSearch 基准测试在其目录中使用此名称,所以只使用不带空格的小写名称。 |
文档 | 是 | JSON 数组 | 文档文件数组。 |
元数据 | 否 | 字符串 | 包含语料库额外元数据的键值对映射。 |
documents
数组中的每个条目都包含以下选项。
参数 | 必需 | 类型 | 描述 |
---|---|---|---|
源文件 | 是 | 字符串 | 包含工作负载相应文档的文件名。在本地使用 OpenSearch 基准测试时,文档包含在 JSON 文件中。提供 base_url 时,请使用压缩文件格式:.zip 、.bz2 、.gz 、.tar 、.tar.gz 、.tgz 或 .tar.bz2 。压缩文件必须包含一个包含名称的 JSON 文件。 |
文档计数 | 是 | 整数 | 源文件 中的文档数量,这决定了哪个客户端索引与文档语料库的哪些部分相关联。每个 N 客户端收到文档语料库的 N 分之一。当使用包含父/子关系文档的源时,请指定父文档的数量。 |
基本URL | 否 | 字符串 | 一个 http(s)、Amazon 简单存储服务 (Amazon S3) 或 Google Cloud Storage URL,指向 OpenSearch 基准测试可以获取相应源文件的根路径。 |
源格式 | 否 | 字符串 | 定义 OpenSearch 基准测试用于解释 源文件 中指定的数据文件的格式。仅支持 bulk 。 |
压缩字节 | 否 | 整数 | 压缩源文件的大小(以字节为单位),指示 OpenSearch 基准测试下载的数据量。 |
未压缩字节 | 否 | 整数 | 解压缩后源文件的大小(以字节为单位),指示解压缩后的源文件所需的磁盘空间。 |
目标索引 | 否 | 字符串 | 定义 bulk 操作应定位的索引名称。当 indices 元素中只定义了一个索引时,OpenSearch 基准测试会自动推导此值。当 includes-action-and-meta-data 设置为 true 时,target-index 的值将被忽略。 |
目标类型 | 否 | 字符串 | 定义批量操作中目标索引的文档类型。当 indices 元素中只定义了一个索引且该索引只有一个类型时,OpenSearch 基准测试会自动推导此值。当 includes-action-and-meta-data 设置为 true 时,target-type 的值将被忽略。 |
包含操作和元数据 | 否 | 布尔型 | 当设置为 true 时,表示文档文件已包含 action 行和 meta-data 行。当设置为 false 时,表示文档文件只包含文档。默认值为 false 。 |
元数据 | 否 | 字符串 | 包含语料库额外元数据的键值对映射。 |