2 years ago · 09103b7b16
--- a/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/nlp/tokenizers/UnigramTokenizer.java
+++ b/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/nlp/tokenizers/UnigramTokenizer.java
@@ -146,13 +146,20 @@ public final class UnigramTokenizer extends Tokenizer {
 
				         offsetAtt.setOffset(correctOffset(whitespaceTokenizer.finalOffset), correctOffset(whitespaceTokenizer.finalOffset));
			
 
				     }
			
 
				 
			
 
				-    @Override
			
 
				-    public boolean incrementToken() throws IOException {
			
 
				-        clearAttributes();
			
 
				+    private void popFromTokens() {
			
 
				         if (tokens.isEmpty() == false) {
			
 
				             DelimitedToken.Encoded token = tokens.removeFirst();
			
 
				+            tokenizedValues.add(token);
			
 
				             termAtt.setEmpty().append(token.charSequence());
			
 
				             offsetAtt.setOffset(token.startOffset(), token.endOffset());
			
 
				+        }
			
 
				+    }
			
 
				+
			
 
				+    @Override
			
 
				+    public boolean incrementToken() throws IOException {
			
 
				+        clearAttributes();
			
 
				+        if (tokens.isEmpty() == false) {
			
 
				+            popFromTokens();
			
 
				             return true;
			
 
				         }
			
 
				         // First, whitespace tokenize
			
@@ -160,7 +167,7 @@ public final class UnigramTokenizer extends Tokenizer {
 
				         if (whitespaceToken != null) {
			
 
				             if (neverSplitHash.contains(whitespaceToken.charSequence())) {
			
 
				                 Integer maybeTokenized = vocabToId.get(new BytesRef(whitespaceToken.charSequence()));
			
 
				-                tokenizedValues.add(
			
 
				+                tokens.add(
			
 
				                     new DelimitedToken.Encoded(
			
 
				                         whitespaceToken.charSequence().toString(),
			
 
				                         Objects.requireNonNullElse(maybeTokenized, unknownTokenId),
			
@@ -168,7 +175,7 @@ public final class UnigramTokenizer extends Tokenizer {
 
				                         correctOffset(whitespaceToken.endOffset())
			
 
				                     )
			
 
				                 );
			
 
				-                offsetAtt.setOffset(correctOffset(whitespaceToken.startOffset()), correctOffset(whitespaceToken.endOffset()));
			
 
				+                popFromTokens();
			
 
				                 return true;
			
 
				             }
			
 
				             int inputOffsetStart = whitespaceToken.startOffset();
			
@@ -217,12 +224,9 @@ public final class UnigramTokenizer extends Tokenizer {
 
				                     MultiCharSequence.from(PREFIX, token.charSequence()),
			
 
				                     offsetCorrectorFunction
			
 
				                 );
			
 
				-                tokenizedValues.addAll(tokenList);
			
 
				                 tokens.addAll(tokenList);
			
 
				             }
			
 
				-            DelimitedToken.Encoded token = tokens.removeFirst();
			
 
				-            termAtt.setEmpty().append(token.charSequence());
			
 
				-            offsetAtt.setOffset(token.startOffset(), token.endOffset());
			
 
				+            popFromTokens();
			
 
				             return true;
			
 
				         }
			
 
				         return false;
			
--- a/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/nlp/tokenizers/XLMRobertaTokenizationResult.java
+++ b/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/nlp/tokenizers/XLMRobertaTokenizationResult.java
@@ -0,0 +1,33 @@
 
				+/*
			
 
				+ * Copyright Elasticsearch B.V. and/or licensed to Elasticsearch B.V. under one
			
 
				+ * or more contributor license agreements. Licensed under the Elastic License
			
 
				+ * 2.0; you may not use this file except in compliance with the Elastic License
			
 
				+ * 2.0.
			
 
				+ */
			
 
				+
			
 
				+package org.elasticsearch.xpack.ml.inference.nlp.tokenizers;
			
 
				+
			
 
				+import java.util.List;
			
 
				+
			
 
				+import static org.elasticsearch.xpack.ml.inference.nlp.tokenizers.UnigramTokenizer.PREFIX;
			
 
				+
			
 
				+public class XLMRobertaTokenizationResult extends RobertaTokenizationResult {
			
 
				+
			
 
				+    protected XLMRobertaTokenizationResult(List<String> vocab, List<Tokens> tokenizations, int padTokenId) {
			
 
				+        super(vocab, tokenizations, padTokenId);
			
 
				+    }
			
 
				+
			
 
				+    @Override
			
 
				+    public String decode(String token) {
			
 
				+        if (token.startsWith(PREFIX)) {
			
 
				+            return token.substring(PREFIX.length());
			
 
				+        }
			
 
				+        return token;
			
 
				+    }
			
 
				+
			
 
				+    static class XLMRobertaTokensBuilder extends RobertaTokensBuilder {
			
 
				+        XLMRobertaTokensBuilder(boolean withSpecialTokens, int clsTokenId, int sepTokenId) {
			
 
				+            super(withSpecialTokens, clsTokenId, sepTokenId);
			
 
				+        }
			
 
				+    }
			
 
				+}
			
--- a/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/nlp/tokenizers/XLMRobertaTokenizer.java
+++ b/x-pack/plugin/ml/src/main/java/org/elasticsearch/xpack/ml/inference/nlp/tokenizers/XLMRobertaTokenizer.java
@@ -121,7 +121,7 @@ public class XLMRobertaTokenizer extends NlpTokenizer {
 
				 
			
 
				     @Override
			
 
				     public TokenizationResult buildTokenizationResult(List<TokenizationResult.Tokens> tokenizations) {
			
 
				-        return new RobertaTokenizationResult(originalVocab, tokenizations, padTokenId);
			
 
				+        return new XLMRobertaTokenizationResult(originalVocab, tokenizations, padTokenId);
			
 
				     }
			
 
				 
			
 
				     @Override
			
@@ -160,7 +160,7 @@ public class XLMRobertaTokenizer extends NlpTokenizer {
 
				 
			
 
				     @Override
			
 
				     TokenizationResult.TokensBuilder createTokensBuilder(int clsTokenId, int sepTokenId, boolean withSpecialTokens) {
			
 
				-        return new RobertaTokenizationResult.RobertaTokensBuilder(withSpecialTokens, clsTokenId, sepTokenId);
			
 
				+        return new XLMRobertaTokenizationResult.XLMRobertaTokensBuilder(withSpecialTokens, clsTokenId, sepTokenId);
			
 
				     }
			
 
				 
			
 
				     @Override
			
--- a/x-pack/plugin/ml/src/test/java/org/elasticsearch/xpack/ml/inference/nlp/tokenizers/XLMRobertaTokenizerTests.java
+++ b/x-pack/plugin/ml/src/test/java/org/elasticsearch/xpack/ml/inference/nlp/tokenizers/XLMRobertaTokenizerTests.java
@@ -37,7 +37,8 @@ public class XLMRobertaTokenizerTests extends ESTestCase {
 
				         "▁little",
			
 
				         "▁red",
			
 
				         "▁car",
			
 
				-        "<mask>"
			
 
				+        "<mask>",
			
 
				+        "."
			
 
				     );
			
 
				     private static final List<Double> TEST_CASE_SCORES = List.of(
			
 
				         0.0,
			
@@ -56,7 +57,8 @@ public class XLMRobertaTokenizerTests extends ESTestCase {
 
				         -11.451579093933105,
			
 
				         -10.858806610107422,
			
 
				         -10.214239120483398,
			
 
				-        0.0
			
 
				+        0.0,
			
 
				+        -3.0
			
 
				     );
			
 
				 
			
 
				     private List<String> tokenStrings(List<? extends DelimitedToken> tokens) {
			
@@ -78,6 +80,19 @@ public class XLMRobertaTokenizerTests extends ESTestCase {
 
				         }
			
 
				     }
			
 
				 
			
 
				+    public void testTokenizeWithNeverSplit() throws IOException {
			
 
				+        try (
			
 
				+            XLMRobertaTokenizer tokenizer = XLMRobertaTokenizer.builder(
			
 
				+                TEST_CASE_VOCAB,
			
 
				+                TEST_CASE_SCORES,
			
 
				+                new XLMRobertaTokenization(false, null, Tokenization.Truncate.NONE, -1)
			
 
				+            ).build()
			
 
				+        ) {
			
 
				+            TokenizationResult.Tokens tokenization = tokenizer.tokenize("Elasticsearch .<mask>.", Tokenization.Truncate.NONE, -1, 0).get(0);
			
 
				+            assertThat(tokenStrings(tokenization.tokens().get(0)), contains("▁Ela", "stic", "search", "▁", ".", "<mask>", "▁", "."));
			
 
				+        }
			
 
				+    }
			
 
				+
			
 
				     public void testMultiSeqTokenization() throws IOException {
			
 
				         try (
			
 
				             XLMRobertaTokenizer tokenizer = XLMRobertaTokenizer.builder(
			
--- a/x-pack/plugin/ml/src/test/resources/org.elasticsearch.xpack.ml.inference.nlp.tokenizers/precompiled_char_map.json
+++ b/x-pack/plugin/ml/src/test/resources/org.elasticsearch.xpack.ml.inference.nlp.tokenizers/precompiled_char_map.json