Split core_plugin and compile_plugin configs (#908)

as-suvorov · web-flow · commit 0f672a84d6f2 · 2024-10-02T12:33:43.000Z
Fast fix for: CVS-153281 To be reverted once CVS-153906 is fixed on core side
diff --git a/src/cpp/src/llm_pipeline.cpp b/src/cpp/src/llm_pipeline.cpp
@@ -99,14 +99,16 @@ class StatefulLLMPipeline final : public LLMPipelineImplBase {
             m_generation_config.adapters = adapters_iter->second.as<AdapterConfig>();
             auto filtered_plugin_config = plugin_config;
             filtered_plugin_config.erase(ov::genai::adapters.name());
-            core.set_property(device, filtered_plugin_config);
+            auto [core_plugin_config, compile_plugin_config] = ov::genai::utils::split_core_complile_config(filtered_plugin_config);
+            core.set_property(core_plugin_config);
             auto model = core.read_model(model_path / "openvino_model.xml");
             m_adapter_controller = AdapterController(model, m_generation_config.adapters, "base_model.model.model.", device);   // TODO: Make the prefix name configurable
-            m_model_runner = core.compile_model(model, device).create_infer_request();
+            m_model_runner = core.compile_model(model, device, compile_plugin_config).create_infer_request();
             m_adapter_controller->apply(m_model_runner, m_generation_config.adapters);
         } else {
-            core.set_property(device, plugin_config);
-            m_model_runner = core.compile_model(model_path / "openvino_model.xml", device).create_infer_request();
+            auto [core_plugin_config, compile_plugin_config] = ov::genai::utils::split_core_complile_config(plugin_config);
+            core.set_property(core_plugin_config);
+            m_model_runner = core.compile_model(model_path / "openvino_model.xml", device, compile_plugin_config).create_infer_request();
         }
 
         // If eos_token_id was not provided, take value
diff --git a/src/cpp/src/utils.cpp b/src/cpp/src/utils.cpp
@@ -2,6 +2,7 @@
 // SPDX-License-Identifier: Apache-2.0
 
 #include "utils.hpp"
+
 #include <fstream>
 
 namespace ov {
@@ -42,7 +43,7 @@ int64_t argmax(const ov::Tensor& logits, const size_t batch_idx) {
     size_t batch_offset = batch_idx * logits.get_shape()[1] * vocab_size;
     size_t sequence_offset = (logits.get_shape()[1] - 1) * vocab_size;
     const float* logits_data = logits.data<const float>() + batch_offset + sequence_offset;
-    
+
     int64_t out_token = std::max_element(logits_data, logits_data + vocab_size) - logits_data;
     float max_logit = logits_data[out_token];
 
@@ -52,16 +53,14 @@ int64_t argmax(const ov::Tensor& logits, const size_t batch_idx) {
 /**
  * Initializes position ids based on attention mask and starting position
  */
-void initialize_position_ids(ov::Tensor& position_ids, 
-                            const ov::Tensor& attention_mask, 
-                            int64_t start_pos) {
-    OPENVINO_ASSERT(position_ids.get_element_type() == ov::element::i64, 
+void initialize_position_ids(ov::Tensor& position_ids, const ov::Tensor& attention_mask, int64_t start_pos) {
+    OPENVINO_ASSERT(position_ids.get_element_type() == ov::element::i64,
                     "position_ids tensor element type should be an i64");
-    OPENVINO_ASSERT(position_ids.get_shape().size() == 2, 
+    OPENVINO_ASSERT(position_ids.get_shape().size() == 2,
                     "position_ids tensor should of rank 2 with shape [batch_size, seq_len]");
-    OPENVINO_ASSERT(attention_mask.get_element_type() == ov::element::i64, 
+    OPENVINO_ASSERT(attention_mask.get_element_type() == ov::element::i64,
                     "attention_mask tensor element type should be an i64");
-    OPENVINO_ASSERT(attention_mask.get_shape().size() == 2, 
+    OPENVINO_ASSERT(attention_mask.get_shape().size() == 2,
                     "attention_mask tensor should of rank 2 with shape [batch_size, seq_len]");
 
     const size_t batch_size = attention_mask.get_shape()[0];
@@ -97,7 +96,6 @@ void initialize_beam_inputs(const ov::Tensor& input_ids, const ov::Tensor& atten
     std::fill_n(beam_idx.data<int32_t>(), input_shape.at(0), 0);
 }
 
-
 void set_attention_mask(ov::Tensor&& attention_mask, std::vector<int32_t> next_beams) {
     ov::Tensor original_mask{ov::element::i64, attention_mask.get_shape()};
     ov::Shape original_shape = original_mask.get_shape();
@@ -185,6 +183,27 @@ ov::genai::OptionalGenerationConfig get_config_from_map(const ov::AnyMap& config
         return std::nullopt;
 }
 
+/**
+ * Split config by core and compile configs
+ * There are not supported by `core.compile` function plugin options like `ENABLE_MMAP`
+ * Move this options to `core.set_property` config
+ */
+std::pair<ov::AnyMap, ov::AnyMap> split_core_complile_config(const ov::AnyMap& plugin_config) {
+    const std::vector<std::string> unsupported_by_compile_options{"ENABLE_MMAP"};
+    ov::AnyMap core_config;
+    ov::AnyMap compile_config{plugin_config};
+
+    for (const auto option : unsupported_by_compile_options) {
+        auto iter = plugin_config.find(option);
+        if (iter != plugin_config.end()) {
+            core_config[option] = iter->second;
+            compile_config.erase(option);
+        }
+    }
+
+    return {core_config, compile_config};
+};
+
 }  // namespace utils
 }  // namespace genai
 }  // namespace ov
diff --git a/src/cpp/src/utils.hpp b/src/cpp/src/utils.hpp
@@ -70,6 +70,8 @@ ov::genai::StreamerVariant get_streamer_from_map(const ov::AnyMap& config_map);
 
 ov::genai::OptionalGenerationConfig get_config_from_map(const ov::AnyMap& config_map);
 
+std::pair<ov::AnyMap, ov::AnyMap> split_core_complile_config(const ov::AnyMap& plugin_config);
+
 }  // namespace utils
 }  // namespace genai
 }  // namespace ov
diff --git a/src/cpp/src/whisper_pipeline.cpp b/src/cpp/src/whisper_pipeline.cpp
@@ -57,12 +57,16 @@ class WhisperPipeline::Impl {
           m_tokenizer{tokenizer},
           m_feature_extractor{(model_path / "preprocessor_config.json").string()} {
         ov::Core core;
-        core.set_property(device, plugin_config);
+        auto [core_plugin_config, compile_plugin_config] = ov::genai::utils::split_core_complile_config(plugin_config);
+        core.set_property(core_plugin_config);
 
-        m_models.encoder = core.compile_model(model_path / "openvino_encoder_model.xml", device).create_infer_request();
-        m_models.decoder = core.compile_model(model_path / "openvino_decoder_model.xml", device).create_infer_request();
+        m_models.encoder = core.compile_model(model_path / "openvino_encoder_model.xml", device, compile_plugin_config)
+                               .create_infer_request();
+        m_models.decoder = core.compile_model(model_path / "openvino_decoder_model.xml", device, compile_plugin_config)
+                               .create_infer_request();
         m_models.decoder_with_past =
-            core.compile_model(model_path / "openvino_decoder_with_past_model.xml", device).create_infer_request();
+            core.compile_model(model_path / "openvino_decoder_with_past_model.xml", device, compile_plugin_config)
+                .create_infer_request();
 
         // If eos_token_id was not provided, take value
         if (m_generation_config.eos_token_id == -1) {