Заставить эластичный поиск только возвращать определенные поля?

434

Я использую эластичный поиск для индексации своих документов.

Можно ли поручить ему возвращать только определенные поля вместо всего документа json, который он сохранил?

user1199438
источник
1
astic.co/guide/en/elasticsearch/reference/current/… , обратите внимание, что вы также можете исключить только некоторые поля
Кристоф Русси,

Ответы:

620

Ага! Используйте исходный фильтр . Если вы ищете с помощью JSON, это будет выглядеть примерно так:

{
    "_source": ["user", "message", ...],
    "query": ...,
    "size": ...
}

В ES 2.4 и более ранних версиях вы также можете использовать опцию fields в API поиска :

{
    "fields": ["user", "message", ...],
    "query": ...,
    "size": ...
}

Это устарело в ES 5+. И исходные фильтры в любом случае более мощные!

kevingessner
источник
12
убедитесь, что вы определили их как «сохраненные»: true в отображении. В противном случае ES все равно загрузит документ _source и загрузит поля оттуда. Может повлиять на производительность, если возвращаемые данные относительно малы по размеру всего документа.
Заар Хай
6
Вы имели в виду «магазин»: правда
sscarduzio
они сделаны в файле conf или где именно?
vbNewbie
@vbNewbie: Где бы вы ни определяли отображение. Если вы не определяете отображение явно и полагаетесь на ES для его генерации, то вам придется определить отображение для полей, которые вы хотите сохранить в ES. Вы можете определить сопоставление только для полей, для которых требуется особое поведение (например, «store»: true, «index»: «not_analyzed») или для всех полей. Посмотрите в документации карт для более подробной информации.
Сангарш
3
поля больше не поддерживаются в более новых версиях. вместо этого используйте хранимые поля :)
Sachin Sharma
88

Мне показались get apiполезными документы для этого, особенно два раздела, Фильтрация источников и Поля : https://www.elastic.co/guide/en/elasticsearch/reference/7.3/docs-get.html#get-source- фильтрация

Они заявляют о фильтрации источника:

Если вам нужно только одно или два поля из полного _source, вы можете использовать параметры _source_include & _source_exclude, чтобы включить или отфильтровать нужные вам части. Это может быть особенно полезно для больших документов, где частичный поиск может сэкономить на сетевых издержках

Который отлично подходил моему случаю использования. В итоге я просто отфильтровал источник (используя сокращение):

{
    "_source": ["field_x", ..., "field_y"],
    "query": {      
        ...
    }
}

К вашему сведению, они указывают в документах о параметре fields :

Операция get позволяет указать набор сохраненных полей, которые будут возвращены путем передачи параметра fields.

Кажется, он обслуживает поля, которые были специально сохранены, где он помещает каждое поле в массив. Если указанные поля не были сохранены, они будут извлекать каждое из источника _source, что может привести к «медленному» поиску. У меня также были проблемы, пытаясь заставить его вернуть поля типа объекта.

Итак, в итоге, у вас есть два варианта, либо через фильтрацию источника, либо [сохраненные] поля.

Маркус Кутзи
источник
Сделал трюк для меня. У меня была проблема с возвратом geo_point с использованием «полей», но «_source» работает просто отлично, спасибо!
Yonnaled
23
For the ES versions 5.X and above you can a ES query something like this

    GET /.../...
    {
      "_source": {
        "includes": [ "FIELD1", "FIELD2", "FIELD3" ... " ]
      },
      .
      .
      .
      .
    }
Пинкеш Шарма
источник
12

В Elasticsearch 5.x вышеупомянутый подход устарел. Вы можете использовать подход _source, но в определенных ситуациях может иметь смысл сохранить поле. Например, если у вас есть документ с заголовком, датой и очень большим полем содержимого, вы можете извлечь только заголовок и дату без необходимости извлекать эти поля из большого поля _source:

В этом случае вы бы использовали:

{  
   "size": $INT_NUM_OF_DOCS_TO_RETURN,
   "stored_fields":[  
      "doc.headline",
      "doc.text",
      "doc.timestamp_utc"
   ],
   "query":{  
      "bool":{  
         "must":{  
            "term":{  
               "doc.topic":"news_on_things"
            }
         },
         "filter":{  
            "range":{  
               "doc.timestamp_utc":{  
                  "gte":1451606400000,
                  "lt":1483228800000,
                  "format":"epoch_millis"
               }
            }
         }
      }
   },
   "aggs":{  

   }
}

См. Документацию о том, как проиндексировать сохраненные поля. Всегда рад за Upvote!

woltob
источник
7
here you can specify whichever field you want in your output and also which you don't.

  POST index_name/_search
    {
        "_source": {
            "includes": [ "field_name", "field_name" ],
            "excludes": [ "field_name" ]
        },
        "query" : {
            "match" : { "field_name" : "value" }
        }
    }
Gaurav
источник
7

response_filtering

Все REST API принимают параметр filter_path, который можно использовать для уменьшения ответа, возвращаемого эластичным поиском. Этот параметр принимает список фильтров, разделенных запятыми, с точечной нотацией.

https://stackoverflow.com/a/35647027/844700

Демз
источник
6

Тут другое решение, теперь с помощью спички выражения

Фильтрация источников
Позволяет контролировать, как поле _source возвращается при каждом попадании.

Протестировано с Elastiscsearch версии 5.5

Ключевое слово «включает» определяет специфические поля.

GET /my_indice/my_indice_type/_search
{
    "_source": {
        "includes": [ "my_especific_field"]
        },
        "query": {
        "bool": {
                "must": [
                {"match": {
                    "_id": "%my_id_here_without_percent%"
                    }
                }
            ]
        }
    }
}
Фабрисио
источник
5

Запрос REST API GET может быть выполнен с параметром _source.

Пример запроса

http://localhost:9200/opt_pr/_search?q=SYMBOL:ITC AND OPTION_TYPE=CE AND TRADE_DATE=2017-02-10 AND EXPIRY_DATE=2017-02-23&_source=STRIKE_PRICE

отклик

{
"took": 59,
"timed_out": false,
"_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
},
"hits": {
    "total": 104,
    "max_score": 7.3908954,
    "hits": [
        {
            "_index": "opt_pr",
            "_type": "opt_pr_r",
            "_id": "AV3K4QTgNHl15Mv30uLc",
            "_score": 7.3908954,
            "_source": {
                "STRIKE_PRICE": 160
            }
        },
        {
            "_index": "opt_pr",
            "_type": "opt_pr_r",
            "_id": "AV3K4QTgNHl15Mv30uLh",
            "_score": 7.3908954,
            "_source": {
                "STRIKE_PRICE": 185
            }
        },
        {
            "_index": "opt_pr",
            "_type": "opt_pr_r",
            "_id": "AV3K4QTgNHl15Mv30uLi",
            "_score": 7.3908954,
            "_source": {
                "STRIKE_PRICE": 190
            }
        },
        {
            "_index": "opt_pr",
            "_type": "opt_pr_r",
            "_id": "AV3K4QTgNHl15Mv30uLm",
            "_score": 7.3908954,
            "_source": {
                "STRIKE_PRICE": 210
            }
        },
        {
            "_index": "opt_pr",
            "_type": "opt_pr_r",
            "_id": "AV3K4QTgNHl15Mv30uLp",
            "_score": 7.3908954,
            "_source": {
                "STRIKE_PRICE": 225
            }
        },
        {
            "_index": "opt_pr",
            "_type": "opt_pr_r",
            "_id": "AV3K4QTgNHl15Mv30uLr",
            "_score": 7.3908954,
            "_source": {
                "STRIKE_PRICE": 235
            }
        },
        {
            "_index": "opt_pr",
            "_type": "opt_pr_r",
            "_id": "AV3K4QTgNHl15Mv30uLw",
            "_score": 7.3908954,
            "_source": {
                "STRIKE_PRICE": 260
            }
        },
        {
            "_index": "opt_pr",
            "_type": "opt_pr_r",
            "_id": "AV3K4QTgNHl15Mv30uL5",
            "_score": 7.3908954,
            "_source": {
                "STRIKE_PRICE": 305
            }
        },
        {
            "_index": "opt_pr",
            "_type": "opt_pr_r",
            "_id": "AV3K4QTgNHl15Mv30uLd",
            "_score": 7.381078,
            "_source": {
                "STRIKE_PRICE": 165
            }
        },
        {
            "_index": "opt_pr",
            "_type": "opt_pr_r",
            "_id": "AV3K4QTgNHl15Mv30uLy",
            "_score": 7.381078,
            "_source": {
                "STRIKE_PRICE": 270
            }
        }
    ]
}

}

Ironluca
источник
Это очень полезно для меня.
Тусита Индунил
4

Да, с помощью исходного фильтра вы можете сделать это, вот документация по исходной фильтрации

Пример запроса

POST index_name/_search
 {
   "_source":["field1","filed2".....] 
 }

Выход будет

{
  "took": 57,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 1,
    "hits": [
      {
        "_index": "index_name",
        "_type": "index1",
        "_id": "1",
        "_score": 1,
        "_source": {
          "field1": "a",
          "field2": "b"
        },
        {
          "field1": "c",
          "field2": "d"
        },....
      }
    ]
  }
}
RCP
источник
2

В Java вы можете использовать setFetchSource следующим образом:

client.prepareSearch(index).setTypes(type)
            .setFetchSource(new String[] { "field1", "field2" }, null)
user1693371
источник
2

Например, у вас есть документ с тремя полями:

PUT movie/_doc/1
{
  "name":"The Lion King",
  "language":"English",
  "score":"9.3"
}

Если вы хотите вернуться, nameи scoreвы можете использовать следующую команду:

GET movie/_doc/1?_source_includes=name,score

Если вы хотите получить несколько полей, которые соответствуют шаблону:

GET movie/_doc/1?_source_includes=*re

Может быть, исключить некоторые поля:

GET movie/_doc/1?_source_excludes=score
Яо Пан
источник
0

Используя Java API, я использую следующее, чтобы получить все записи из набора определенных полей:

public List<Map<String, Object>> getAllDocs(String indexName) throws IOException{
    int scrollSize = 1000;
    List<Map<String,Object>> data = new ArrayList<>();
    SearchResponse response = null;
    while( response == null || response.getHits().getHits().length != 0){
        response = client.prepareSearch(indexName)
            .setTypes("typeName")  // The document types to execute the search against. Defaults to be executed against all types.
        .setQuery(QueryBuilders.matchAllQuery())
        .setFetchSource(new String[]{"field1", "field2"}, null)
        .setSize(scrollSize)
        .execute()
        .actionGet();
        for(SearchHit hit : response.getHits()){
            System.out.println(hit.getSourceAsString());
        }
    }
    return data;
}
Doi
источник