apaniukov
diff --git a/‎README.md
+102-73 b/‎README.md
+102-73
diff --git a/‎python/openvino_tokenizers/__init__.py
+1-1 b/‎python/openvino_tokenizers/__init__.py
+1-1
diff --git a/‎python/openvino_tokenizers/build_tokenizer.py
+1-2 b/‎python/openvino_tokenizers/build_tokenizer.py
+1-2
diff --git a/‎python/openvino_tokenizers/convert_tokenizer.py
+2-4 b/‎python/openvino_tokenizers/convert_tokenizer.py
+2-4
@@ -446,7 +446,7 @@ int main(int argc, char* argv[]) {
 |---------------------------------|----------------------|----------|-----------|
 | Fast                            | WordPiece            | ✅        | ✅          |
 |                                 | BPE                  | ✅        | ✅         |
-|                                 | Unigram              | ❌         | ❌         |
+|                                 | Unigram              | ✅         | ✅         |
 |                                 | WordLevel*           | ✅         | ✅         |
 | Legacy                          | SentencePiece .model | ✅        | ✅         |
 | Custom                          | tiktoken             | ✅        | ✅         |
@@ -469,19 +469,24 @@ This report is autogenerated and includes tokenizers and detokenizers tests. The
   <tbody>
     <tr>
       <td >BPE</td>
-      <td >99.61</td>
-      <td >4560</td>
+      <td >99.46</td>
+      <td >5546</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >89.19</td>
-      <td >6633</td>
+      <td >89.82</td>
+      <td >5157</td>
     </tr>
     <tr>
       <td >Tiktoken</td>
       <td >96.56</td>
       <td >524</td>
     </tr>
+    <tr>
+      <td >Unigram</td>
+      <td >95.24</td>
+      <td >1470</td>
+    </tr>
     <tr>
       <td >WordLevel</td>
       <td >98.96</td>
@@ -507,6 +512,12 @@ This report is autogenerated and includes tokenizers and detokenizers tests. The
     </tr>
   </thead>
   <tbody>
+    <tr>
+      <td >BPE</td>
+      <td >NousResearch/Llama-2-13b-hf</td>
+      <td >97.55</td>
+      <td >245</td>
+    </tr>
     <tr>
       <td >BPE</td>
       <td >NousResearch/Meta-Llama-3-8B-Instruct</td>
@@ -519,6 +530,12 @@ This report is autogenerated and includes tokenizers and detokenizers tests. The
       <td >100.00</td>
       <td >261</td>
     </tr>
+    <tr>
+      <td >BPE</td>
+      <td >TinyLlama/TinyLlama-1.1B-Chat-v1.0</td>
+      <td >100.00</td>
+      <td >247</td>
+    </tr>
     <tr>
       <td >BPE</td>
       <td >Xenova/gpt-4o</td>
@@ -585,12 +602,24 @@ This report is autogenerated and includes tokenizers and detokenizers tests. The
       <td >100.00</td>
       <td >261</td>
     </tr>
+    <tr>
+      <td >BPE</td>
+      <td >microsoft/Phi-3-mini-128k-instruct</td>
+      <td >100.00</td>
+      <td >247</td>
+    </tr>
     <tr>
       <td >BPE</td>
       <td >microsoft/deberta-base</td>
       <td >100.00</td>
       <td >245</td>
     </tr>
+    <tr>
+      <td >BPE</td>
+      <td >mlx-community/quantized-gemma-7b-it</td>
+      <td >97.57</td>
+      <td >247</td>
+    </tr>
     <tr>
       <td >BPE</td>
       <td >roberta-base</td>
@@ -617,22 +646,28 @@ This report is autogenerated and includes tokenizers and detokenizers tests. The
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >NousResearch/Llama-2-13b-hf</td>
-      <td >97.55</td>
+      <td >BAAI/bge-reranker-v2-m3</td>
+      <td >96.73</td>
       <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >NousResearch/Llama-2-13b-hf_legacy_sp_backend</td>
-      <td >97.55</td>
+      <td >BAAI/bge-reranker-v2-m3_legacy</td>
+      <td >96.73</td>
       <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >NousResearch/Llama-2-13b-hf_sp_backend</td>
+      <td >NousResearch/Llama-2-13b-hf</td>
       <td >94.29</td>
       <td >245</td>
     </tr>
+    <tr>
+      <td >SentencePiece</td>
+      <td >NousResearch/Llama-2-13b-hf_legacy</td>
+      <td >97.55</td>
+      <td >245</td>
+    </tr>
     <tr>
       <td >SentencePiece</td>
       <td >TinyLlama/TinyLlama-1.1B-Chat-v1.0</td>
@@ -641,153 +676,147 @@ This report is autogenerated and includes tokenizers and detokenizers tests. The
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >TinyLlama/TinyLlama-1.1B-Chat-v1.0_legacy_sp_backend</td>
+      <td >TinyLlama/TinyLlama-1.1B-Chat-v1.0_legacy</td>
       <td >98.38</td>
       <td >247</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >TinyLlama/TinyLlama-1.1B-Chat-v1.0_sp_backend</td>
+      <td >baichuan-inc/Baichuan2-7B-Chat_legacy</td>
       <td >100.00</td>
-      <td >247</td>
+      <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >baichuan-inc/Baichuan2-7B-Chat_legacy_sp_backend</td>
-      <td >100.00</td>
+      <td >camembert-base</td>
+      <td >55.10</td>
       <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >camembert-base_legacy_sp_backend</td>
-      <td >75.51</td>
+      <td >camembert-base_legacy</td>
+      <td >78.37</td>
       <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >camembert-base_sp_backend</td>
-      <td >52.24</td>
+      <td >facebook/musicgen-small</td>
+      <td >82.45</td>
       <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >facebook/musicgen-small_legacy_sp_backend</td>
-      <td >78.37</td>
+      <td >facebook/musicgen-small_legacy</td>
+      <td >77.14</td>
       <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >facebook/musicgen-small_sp_backend</td>
-      <td >83.67</td>
+      <td >google/flan-t5-xxl</td>
+      <td >75.92</td>
       <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >microsoft/Phi-3-mini-128k-instruct</td>
-      <td >100.00</td>
-      <td >247</td>
+      <td >google/flan-t5-xxl_legacy</td>
+      <td >75.51</td>
+      <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >microsoft/Phi-3-mini-128k-instruct_legacy_sp_backend</td>
-      <td >97.57</td>
+      <td >microsoft/Phi-3-mini-128k-instruct</td>
+      <td >99.19</td>
       <td >247</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >microsoft/Phi-3-mini-128k-instruct_sp_backend</td>
-      <td >99.19</td>
+      <td >microsoft/Phi-3-mini-128k-instruct_legacy</td>
+      <td >97.57</td>
       <td >247</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >microsoft/deberta-v3-base_legacy_sp_backend</td>
-      <td >100.00</td>
+      <td >microsoft/deberta-v3-base</td>
+      <td >95.10</td>
       <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >microsoft/deberta-v3-base_sp_backend</td>
-      <td >96.73</td>
+      <td >microsoft/deberta-v3-base_legacy</td>
+      <td >98.37</td>
       <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
       <td >mlx-community/quantized-gemma-7b-it</td>
-      <td >97.57</td>
+      <td >96.76</td>
       <td >247</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >mlx-community/quantized-gemma-7b-it_legacy_sp_backend</td>
+      <td >mlx-community/quantized-gemma-7b-it_legacy</td>
       <td >97.57</td>
       <td >247</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >mlx-community/quantized-gemma-7b-it_sp_backend</td>
-      <td >96.76</td>
-      <td >247</td>
+      <td >rinna/bilingual-gpt-neox-4b</td>
+      <td >83.67</td>
+      <td >245</td>
     </tr>
     <tr>
       <td >SentencePiece</td>
-      <td >rinna/bilingual-gpt-neox-4b_legacy_sp_backend</td>
-      <td >86.12</td>
+      <td >rinna/bilingual-gpt-neox-4b_legacy</td>
+      <td >89.39</td>
       <td >245</td>
     </tr>
     <tr>
-      <td >SentencePiece</td>
-      <td >rinna/bilingual-gpt-neox-4b_sp_backend</td>
-      <td >80.41</td>
-      <td >245</td>
+      <td >Tiktoken</td>
+      <td >Qwen/Qwen-14B-Chat</td>
+      <td >100.00</td>
+      <td >261</td>
     </tr>
     <tr>
-      <td >SentencePiece</td>
-      <td >t5-base_legacy_sp_backend</td>
-      <td >80.00</td>
-      <td >245</td>
+      <td >Tiktoken</td>
+      <td >THUDM/glm-4-9b-chat</td>
+      <td >93.16</td>
+      <td >263</td>
     </tr>
     <tr>
-      <td >SentencePiece</td>
-      <td >t5-base_sp_backend</td>
-      <td >85.31</td>
+      <td >Unigram</td>
+      <td >BAAI/bge-reranker-v2-m3</td>
+      <td >98.37</td>
       <td >245</td>
     </tr>
     <tr>
-      <td >SentencePiece</td>
-      <td >xlm-roberta-base_legacy_sp_backend</td>
-      <td >95.10</td>
+      <td >Unigram</td>
+      <td >camembert-base</td>
+      <td >84.49</td>
       <td >245</td>
     </tr>
     <tr>
-      <td >SentencePiece</td>
-      <td >xlm-roberta-base_sp_backend</td>
-      <td >95.10</td>
+      <td >Unigram</td>
+      <td >facebook/musicgen-small</td>
+      <td >98.37</td>
       <td >245</td>
     </tr>
     <tr>
-      <td >SentencePiece</td>
-      <td >xlnet-base-cased_legacy_sp_backend</td>
-      <td >57.96</td>
+      <td >Unigram</td>
+      <td >google/flan-t5-xxl</td>
+      <td >91.84</td>
       <td >245</td>
     </tr>
     <tr>
-      <td >SentencePiece</td>
-      <td >xlnet-base-cased_sp_backend</td>
-      <td >64.49</td>
+      <td >Unigram</td>
+      <td >microsoft/deberta-v3-base</td>
+      <td >98.37</td>
       <td >245</td>
     </tr>
     <tr>
-      <td >Tiktoken</td>
-      <td >Qwen/Qwen-14B-Chat</td>
+      <td >Unigram</td>
+      <td >rinna/bilingual-gpt-neox-4b</td>
       <td >100.00</td>
-      <td >261</td>
-    </tr>
-    <tr>
-      <td >Tiktoken</td>
-      <td >THUDM/glm-4-9b-chat</td>
-      <td >93.16</td>
-      <td >263</td>
+      <td >245</td>
     </tr>
     <tr>
       <td >WordLevel</td>
 
@@ -2,6 +2,7 @@
 # Copyright (C) 2018-2025 Intel Corporation
 # SPDX-License-Identifier: Apache-2.0
 import functools
+import logging
 import os
 import site
 import sys
@@ -11,7 +12,6 @@
 
 import openvino
 from openvino.utils.node_factory import NodeFactory
-import logging
 
 
 logger = logging.getLogger(__name__)
 
@@ -1,7 +1,6 @@
 from typing import Iterable, Tuple
 
-from openvino import Model, PartialShape, Type
-from openvino import op
+from openvino import Model, PartialShape, Type, op
 from openvino import opset12 as opset
 from openvino.utils.types import make_constant_node
 
 
@@ -10,9 +10,9 @@
 
 from openvino import Model, Type
 from openvino.exceptions import OVTypeError
-from openvino_tokenizers.tokenizer_transformations import add_second_input
 
 from openvino_tokenizers.constants import UTF8ReplaceMode
+from openvino_tokenizers.tokenizer_transformations import add_second_input
 from openvino_tokenizers.utils import (
     TokenzierConversionParams,
     change_inputs_type,
@@ -112,7 +112,6 @@ def convert_tokenizer(
         convert_fast_tokenizer,
         convert_sentencepiece_model_tokenizer,
         convert_tiktoken_model_tokenizer,
-        is_sentencepiece_bpe_model,
         is_sentencepiece_model,
         is_tiktoken_model,
     )
@@ -122,9 +121,8 @@ def convert_tokenizer(
         tokenizer_object.model_max_length = params.max_length
 
     can_use_sentencepiece = is_sentencepiece_model(tokenizer_object)
-    is_unigram = can_use_sentencepiece and not is_sentencepiece_bpe_model(tokenizer_object)
     if isinstance(tokenizer_object, PreTrainedTokenizerBase):
-        if can_use_sentencepiece and (is_unigram or not tokenizer_object.is_fast or params.use_sentencepiece_backend):
+        if can_use_sentencepiece and (not tokenizer_object.is_fast or params.use_sentencepiece_backend):
             logger.info("Convert tokenizer using SentencePiece .model file.")
             ov_tokenizers = convert_sentencepiece_model_tokenizer(tokenizer_object, params)
         elif is_tiktoken_model(tokenizer_object):