3 years ago · 9ce59bb7a9
--- a/docs/reference/ml/ml-shared.asciidoc
+++ b/docs/reference/ml/ml-shared.asciidoc
@@ -1051,8 +1051,8 @@ results are returned to the caller.
 
				 end::inference-config-pass-through[]
			
 
				 
			
 
				 tag::inference-config-nlp-question-answering[]
			
 
				-Configures a question answering natural language processing (NLP) task. Question 
			
 
				-answering is useful for extracting answers for certain questions from a large 
			
 
				+Configures a question answering natural language processing (NLP) task. Question
			
 
				+answering is useful for extracting answers for certain questions from a large
			
 
				 corpus of text.
			
 
				 end::inference-config-nlp-question-answering[]
			
 
				 
			
@@ -1070,6 +1070,26 @@ context. These embeddings can be used in a <<dense-vector,dense vector>> field
 
				 for powerful insights.
			
 
				 end::inference-config-text-embedding[]
			
 
				 
			
 
				+tag::inference-config-text-similarity[]
			
 
				+Text similarity takes an input sequence and compares it with another input sequence. This is commonly referred to
			
 
				+as cross-encoding. This task is useful for ranking document text when comparing it to another provided text input.
			
 
				+end::inference-config-text-similarity[]
			
 
				+
			
 
				+tag::inference-config-text-similarity-span-score-func[]
			
 
				+Identifies how to combine the resulting similarity score when a provided text passage is longer than `max_sequence_length` and must be
			
 
				+automatically separated for multiple calls. This only is applicable when `truncate` is `none` and `span` is a non-negative
			
 
				+number. The default value is `max`. Available options are:
			
 
				++
			
 
				+--
			
 
				+* `max`: The maximum score from all the spans is returned.
			
 
				+* `mean`: The mean score over all the spans is returned.
			
 
				+--
			
 
				+end::inference-config-text-similarity-span-score-func[]
			
 
				+
			
 
				+tag::inference-config-text-similarity-text[]
			
 
				+This is the text with which to compare all document provided text inputs.
			
 
				+end::inference-config-text-similarity-text[]
			
 
				+
			
 
				 tag::inference-config-regression-num-top-feature-importance-values[]
			
 
				 Specifies the maximum number of
			
 
				 {ml-docs}/ml-feature-importance.html[{feat-imp}] values per document.
			
--- a/docs/reference/ml/trained-models/apis/get-trained-models.asciidoc
+++ b/docs/reference/ml/trained-models/apis/get-trained-models.asciidoc
@@ -674,6 +674,118 @@ include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenizati
 
				 (Optional, string)
			
 
				 include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-truncate]
			
 
				 
			
 
				+`with_special_tokens`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-mpnet-with-special-tokens]
			
 
				+========
			
 
				+=======
			
 
				+`vocabulary`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-vocabulary]
			
 
				++
			
 
				+.Properties of vocabulary
			
 
				+[%collapsible%open]
			
 
				+=======
			
 
				+`index`::::
			
 
				+(Required, string)
			
 
				+The index where the vocabulary is stored.
			
 
				+=======
			
 
				+======
			
 
				+`text_similarity`::::
			
 
				+(Object, optional)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-text-similarity]
			
 
				++
			
 
				+.Properties of text_similarity inference
			
 
				+[%collapsible%open]
			
 
				+======
			
 
				+`span_score_combination_function`::::
			
 
				+(Optional, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-text-similarity-span-score-func]
			
 
				+
			
 
				+`tokenization`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization]
			
 
				++
			
 
				+.Properties of tokenization
			
 
				+[%collapsible%open]
			
 
				+=======
			
 
				+`bert`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-bert]
			
 
				++
			
 
				+.Properties of bert
			
 
				+[%collapsible%open]
			
 
				+========
			
 
				+`do_lower_case`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-do-lower-case]
			
 
				+
			
 
				+`max_sequence_length`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-max-sequence-length]
			
 
				+
			
 
				+`span`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-span]
			
 
				+
			
 
				+`truncate`::::
			
 
				+(Optional, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-truncate]
			
 
				+
			
 
				+`with_special_tokens`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-bert-with-special-tokens]
			
 
				+========
			
 
				+`roberta`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-roberta]
			
 
				++
			
 
				+.Properties of roberta
			
 
				+[%collapsible%open]
			
 
				+========
			
 
				+`add_prefix_space`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-roberta-add-prefix-space]
			
 
				+
			
 
				+`max_sequence_length`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-max-sequence-length]
			
 
				+
			
 
				+`span`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-span]
			
 
				+
			
 
				+`truncate`::::
			
 
				+(Optional, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-truncate]
			
 
				+
			
 
				+`with_special_tokens`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-roberta-with-special-tokens]
			
 
				+========
			
 
				+`mpnet`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-mpnet]
			
 
				++
			
 
				+.Properties of mpnet
			
 
				+[%collapsible%open]
			
 
				+========
			
 
				+`do_lower_case`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-do-lower-case]
			
 
				+
			
 
				+`max_sequence_length`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-max-sequence-length]
			
 
				+
			
 
				+`span`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-span]
			
 
				+
			
 
				+`truncate`::::
			
 
				+(Optional, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-truncate]
			
 
				+
			
 
				 `with_special_tokens`::::
			
 
				 (Optional, boolean)
			
 
				 include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-mpnet-with-special-tokens]
			
--- a/docs/reference/ml/trained-models/apis/infer-trained-model.asciidoc
+++ b/docs/reference/ml/trained-models/apis/infer-trained-model.asciidoc
@@ -46,20 +46,20 @@ Controls the amount of time to wait for {infer} results. Defaults to 10 seconds.
 
				 `docs`::
			
 
				 (Required, array)
			
 
				 An array of objects to pass to the model for inference. The objects should
			
 
				-contain the fields matching your configured trained model input. Typically for 
			
 
				-NLP models, the field name is `text_field`. Currently for NLP models, only a 
			
 
				-single value is allowed. For {dfanalytics} or imported classification or 
			
 
				+contain the fields matching your configured trained model input. Typically for
			
 
				+NLP models, the field name is `text_field`. Currently for NLP models, only a
			
 
				+single value is allowed. For {dfanalytics} or imported classification or
			
 
				 regression models, more than one value is allowed.
			
 
				 
			
 
				 //Begin inference_config
			
 
				 `inference_config`::
			
 
				 (Required, object)
			
 
				 The default configuration for inference. This can be: `regression`,
			
 
				-`classification`, `fill_mask`, `ner`, `question_answering`, 
			
 
				+`classification`, `fill_mask`, `ner`, `question_answering`,
			
 
				 `text_classification`, `text_embedding` or `zero_shot_classification`.
			
 
				 If `regression` or `classification`, it must match the `target_type` of the
			
 
				-underlying `definition.trained_model`. If `fill_mask`, `ner`, 
			
 
				-`question_answering`, `text_classification`, or `text_embedding`; the 
			
 
				+underlying `definition.trained_model`. If `fill_mask`, `ner`,
			
 
				+`question_answering`, `text_classification`, or `text_embedding`; the
			
 
				 `model_type` must be `pytorch`.
			
 
				 +
			
 
				 .Properties of `inference_config`
			
@@ -286,7 +286,7 @@ include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-results-field]
 
				 (Optional, object)
			
 
				 include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization]
			
 
				 +
			
 
				-Recommended to set `max_sequence_length` to `386` with `128` of `span` and set 
			
 
				+Recommended to set `max_sequence_length` to `386` with `128` of `span` and set
			
 
				 `truncate` to `none`.
			
 
				 +
			
 
				 .Properties of tokenization
			
@@ -475,6 +475,75 @@ include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenizati
 
				 .Properties of mpnet
			
 
				 [%collapsible%open]
			
 
				 =======
			
 
				+`truncate`::::
			
 
				+(Optional, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-truncate]
			
 
				+=======
			
 
				+======
			
 
				+=====
			
 
				+`text_similarity`::::
			
 
				+(Object, optional)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-text-similarity]
			
 
				++
			
 
				+.Properties of text_similarity inference
			
 
				+[%collapsible%open]
			
 
				+=====
			
 
				+`span_score_combination_function`::::
			
 
				+(Optional, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-text-similarity-span-score-func]
			
 
				+
			
 
				+`text`::::
			
 
				+(Required, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-text-similarity-text]
			
 
				+
			
 
				+`tokenization`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization]
			
 
				++
			
 
				+.Properties of tokenization
			
 
				+[%collapsible%open]
			
 
				+======
			
 
				+`bert`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-bert]
			
 
				++
			
 
				+.Properties of bert
			
 
				+[%collapsible%open]
			
 
				+=======
			
 
				+`span`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-span]
			
 
				+
			
 
				+`with_special_tokens`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-bert-with-special-tokens]
			
 
				+=======
			
 
				+`roberta`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-roberta]
			
 
				++
			
 
				+.Properties of roberta
			
 
				+[%collapsible%open]
			
 
				+=======
			
 
				+`span`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-span]
			
 
				+
			
 
				+`truncate`::::
			
 
				+(Optional, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-truncate]
			
 
				+=======
			
 
				+`mpnet`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-mpnet]
			
 
				++
			
 
				+.Properties of mpnet
			
 
				+[%collapsible%open]
			
 
				+=======
			
 
				+`span`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-span]
			
 
				+
			
 
				 `truncate`::::
			
 
				 (Optional, string)
			
 
				 include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-truncate]
			
@@ -654,7 +723,7 @@ The API returns in this case:
 
				 ----
			
 
				 // NOTCONSOLE
			
 
				 
			
 
				-Zero-shot classification models require extra configuration defining the class 
			
 
				+Zero-shot classification models require extra configuration defining the class
			
 
				 labels. These labels are passed in the zero-shot inference config.
			
 
				 
			
 
				 [source,console]
			
@@ -681,7 +750,7 @@ POST _ml/trained_models/model2/_infer
 
				 --------------------------------------------------
			
 
				 // TEST[skip:TBD]
			
 
				 
			
 
				-The API returns the predicted label and the confidence, as well as the top 
			
 
				+The API returns the predicted label and the confidence, as well as the top
			
 
				 classes:
			
 
				 
			
 
				 [source,console-result]
			
@@ -717,7 +786,7 @@ classes:
 
				 ----
			
 
				 // NOTCONSOLE
			
 
				 
			
 
				-Question answering models require extra configuration defining the question to 
			
 
				+Question answering models require extra configuration defining the question to
			
 
				 answer.
			
 
				 
			
 
				 [source,console]
			
--- a/docs/reference/ml/trained-models/apis/put-trained-models.asciidoc
+++ b/docs/reference/ml/trained-models/apis/put-trained-models.asciidoc
@@ -384,11 +384,11 @@ the model definition is not supplied.
 
				 `inference_config`::
			
 
				 (Required, object)
			
 
				 The default configuration for inference. This can be: `regression`,
			
 
				-`classification`, `fill_mask`, `ner`, `question_answering`, 
			
 
				+`classification`, `fill_mask`, `ner`, `question_answering`,
			
 
				 `text_classification`, `text_embedding` or `zero_shot_classification`.
			
 
				 If `regression` or `classification`, it must match the `target_type` of the
			
 
				-underlying `definition.trained_model`. If `fill_mask`, `ner`, 
			
 
				-`question_answering`, `text_classification`, or `text_embedding`; the 
			
 
				+underlying `definition.trained_model`. If `fill_mask`, `ner`,
			
 
				+`question_answering`, `text_classification`, or `text_embedding`; the
			
 
				 `model_type` must be `pytorch`.
			
 
				 +
			
 
				 .Properties of `inference_config`
			
@@ -525,9 +525,9 @@ include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-ner]
 
				 =====
			
 
				 `classification_labels`::::
			
 
				 (Optional, string)
			
 
				-An array of classification labels. NER only supports Inside-Outside-Beginning 
			
 
				+An array of classification labels. NER only supports Inside-Outside-Beginning
			
 
				 labels (IOB) and only persons, organizations, locations, and miscellaneous.
			
 
				-Example: ["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC", 
			
 
				+Example: ["O", "B-PER", "I-PER", "B-ORG", "I-ORG", "B-LOC", "I-LOC", "B-MISC",
			
 
				 "I-MISC"]
			
 
				 
			
 
				 `results_field`::::
			
@@ -722,7 +722,7 @@ include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-results-field]
 
				 (Optional, object)
			
 
				 include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization]
			
 
				 +
			
 
				-Recommended to set `max_sentence_length` to `386` with `128` of `span` and set 
			
 
				+Recommended to set `max_sentence_length` to `386` with `128` of `span` and set
			
 
				 `truncate` to `none`.
			
 
				 +
			
 
				 .Properties of tokenization
			
@@ -1015,6 +1015,107 @@ include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenizati
 
				 (Optional, string)
			
 
				 include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-truncate]
			
 
				 
			
 
				+`with_special_tokens`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-mpnet-with-special-tokens]
			
 
				+=======
			
 
				+======
			
 
				+=====
			
 
				+`text_similarity`::::
			
 
				+(Object, optional)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-text-similarity]
			
 
				++
			
 
				+.Properties of text_similarity inference
			
 
				+[%collapsible%open]
			
 
				+=====
			
 
				+`span_score_combination_function`::::
			
 
				+(Optional, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-text-similarity-span-score-func]
			
 
				+
			
 
				+`tokenization`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization]
			
 
				++
			
 
				+.Properties of tokenization
			
 
				+[%collapsible%open]
			
 
				+======
			
 
				+`bert`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-bert]
			
 
				++
			
 
				+.Properties of bert
			
 
				+[%collapsible%open]
			
 
				+=======
			
 
				+`do_lower_case`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-do-lower-case]
			
 
				+
			
 
				+`max_sequence_length`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-max-sequence-length]
			
 
				+
			
 
				+`span`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-span]
			
 
				+
			
 
				+`truncate`::::
			
 
				+(Optional, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-truncate]
			
 
				+
			
 
				+`with_special_tokens`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-bert-with-special-tokens]
			
 
				+=======
			
 
				+`roberta`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-roberta]
			
 
				++
			
 
				+.Properties of roberta
			
 
				+[%collapsible%open]
			
 
				+=======
			
 
				+`add_prefix_space`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-roberta-add-prefix-space]
			
 
				+
			
 
				+`max_sequence_length`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-max-sequence-length]
			
 
				+
			
 
				+`span`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-span]
			
 
				+
			
 
				+`truncate`::::
			
 
				+(Optional, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-truncate]
			
 
				+
			
 
				+`with_special_tokens`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-roberta-with-special-tokens]
			
 
				+=======
			
 
				+`mpnet`::::
			
 
				+(Optional, object)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-mpnet]
			
 
				++
			
 
				+.Properties of mpnet
			
 
				+[%collapsible%open]
			
 
				+=======
			
 
				+`do_lower_case`::::
			
 
				+(Optional, boolean)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-do-lower-case]
			
 
				+
			
 
				+`max_sequence_length`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-max-sequence-length]
			
 
				+
			
 
				+`span`::::
			
 
				+(Optional, integer)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-span]
			
 
				+
			
 
				+`truncate`::::
			
 
				+(Optional, string)
			
 
				+include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-truncate]
			
 
				+
			
 
				 `with_special_tokens`::::
			
 
				 (Optional, boolean)
			
 
				 include::{es-repo-dir}/ml/ml-shared.asciidoc[tag=inference-config-nlp-tokenization-mpnet-with-special-tokens]