重要术语聚合
significant_terms
聚合允许您识别经过筛选的子集中相对于索引中其余数据的不寻常或有趣的词项出现情况。
前景集是您筛选的文档集。背景集是索引中的所有文档集。significant_terms
聚合检查前景集中的所有文档,并根据与背景集中文档的对比情况,为重要出现情况计算一个分数。
在示例 Web 日志数据中,每个文档都有一个包含访问者 user-agent
的字段。此示例搜索来自 iOS 操作系统的所有请求。对此前景集进行常规 terms
聚合会返回 Firefox,因为它在此桶中包含的文档数量最多。另一方面,significant_terms
聚合会返回 Internet Explorer (IE),因为与背景集相比,IE 在前景集中的出现频率显著更高。
GET opensearch_dashboards_sample_data_logs/_search
{
"size": 0,
"query": {
"terms": {
"machine.os.keyword": [
"ios"
]
}
},
"aggs": {
"significant_response_codes": {
"significant_terms": {
"field": "agent.keyword"
}
}
}
}
示例响应
...
"aggregations" : {
"significant_response_codes" : {
"doc_count" : 2737,
"bg_count" : 14074,
"buckets" : [
{
"key" : "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)",
"doc_count" : 818,
"score" : 0.01462731514608217,
"bg_count" : 4010
},
{
"key" : "Mozilla/5.0 (X11; Linux x86_64; rv:6.0a1) Gecko/20110421 Firefox/6.0a1",
"doc_count" : 1067,
"score" : 0.009062566630410223,
"bg_count" : 5362
}
]
}
}
}
如果 significant_terms
聚合未返回任何结果,可能是您没有使用查询过滤结果。或者,前景集中的词项分布可能与背景集相同,这意味着前景集中没有任何不寻常之处。
用于背景词项频率的统计信息的默认来源是整个索引。您可以使用背景过滤器缩小此范围,以获得更集中的结果