Add test and clean up

openvinotoolkit · ilya-lavrenov · Mar 6, 2025 · Mar 3, 2025 · Mar 4, 2025 · Mar 4, 2025
commit 6ac899d3df7acd2ba306331908fcbcf062e86bd8
diff --git a/src/cpp/src/llm_pipeline.cpp b/src/cpp/src/llm_pipeline.cpp
@@ -120,7 +120,6 @@ ov::genai::LLMPipeline::LLMPipeline(
     auto start_time = std::chrono::steady_clock::now();
     auto [properties, attention_backend] = extract_attention_backend(user_properties);
 
-
     // If CB is invoked explicitly, create CB adapter as is and re-throw in case if internal issues
     if (explicitly_requires_paged_attention(properties)) {
         auto [device_properties, scheduler_config] = utils::extract_scheduler_config(properties, get_latency_oriented_scheduler_config());

diff --git a/src/cpp/src/visual_language/pipeline.cpp b/src/cpp/src/visual_language/pipeline.cpp
@@ -56,24 +56,24 @@ class VLMPipeline::VLMPipelineImpl : public VLMPipelineBase{
             utils::from_config_json_if_exists<GenerationConfig>(
                 models_dir, "generation_config.json"
             )
-        },
-        m_is_chat_conversation{false} {
+        } {
         m_is_npu = device.find("NPU") != std::string::npos;
+
         auto properties_copy = properties;
         auto language_model_path = models_dir / "openvino_language_model.xml";
         auto language_model =  utils::singleton_core().read_model(language_model_path, {}, properties_copy);
         auto kv_pos = ov::genai::utils::get_kv_axes_pos(language_model);
         m_kv_cache_seq_length_axis = kv_pos.seq_len;
 
-        // User provided properties in the following format:
+        // In case user provided properties per-device
         // {
         //     ov::device::properties("NPU", ...),
         //     ov::device::properties("CPU", ...)
         // }
         auto device_propertes = utils::pop_or_default<ov::AnyMap>(
             properties_copy, ov::device::properties.name(), { }
         );
-        // Otherwise, the same properties are used for all models
+        // Otherwise, the same properties are used for all models and devices
         auto lm_properties = device_propertes.empty()
             ? properties_copy
             : utils::pop_or_default<ov::AnyMap>(device_propertes, device, {});
@@ -172,6 +172,14 @@ class VLMPipeline::VLMPipelineImpl : public VLMPipelineBase{
             generation_config.set_eos_token_id(m_generation_config.eos_token_id);
         generation_config.validate();
 
+        if (m_is_npu) {
+            OPENVINO_ASSERT(rgbs.size() == 1u, "Currently only batch size equal to 1 is supported for NPU device!");
+            OPENVINO_ASSERT(generation_config.is_greedy_decoding() || generation_config.is_multinomial(),
+                "Currently only greedy and multinomial decoding are supported for NPU device!");
+            OPENVINO_ASSERT(generation_config.num_return_sequences == 1u,
+                "Currently only \"num_return_sequences\" equal to 1 is supported for NPU device!");
+        }
+
         m_inputs_embedder->set_apply_chat_template_status(generation_config.apply_chat_template);
 
         auto start_get_inputs_embeds = std::chrono::steady_clock::now();

diff --git a/tests/python_tests/test_vlm_pipeline.py b/tests/python_tests/test_vlm_pipeline.py
@@ -92,7 +92,7 @@ def streamer(word: str) -> bool:
         images = []
         for link in links:
             images.append(get_image_by_link(link))
-        
+
         result_from_streamer = []
         res = ov_pipe.generate(prompts[0], images=images, generation_config=generation_config, streamer=streamer)
         assert res.texts[0] == ''.join(result_from_streamer)
@@ -328,3 +328,27 @@ def test_perf_metrics(cache):
     mean_dur, std_dur = perf_metrics.get_prepare_embeddings_duration()
     assert np.allclose(mean_dur, np.mean(raw_dur))
     assert np.allclose(std_dur, np.std(raw_dur))
+
+
+@pytest.mark.precommit
+@pytest.mark.nightly
+@pytest.mark.parametrize("model_id", model_ids)
+def test_vlm_cpu_vs_npuw_cpu(model_id, cache):
+    models_path = get_ov_model(model_id, cache)
+
+    cpu_pipe = VLMPipeline(models_path, "CPU")
+    npu_pipe = VLMPipeline(models_path, "NPU")
+
+    generation_config = ov_pipe.get_generation_config()
+    generation_config.max_new_tokens = 30
+    generation_config.set_eos_token_id(ov_pipe.get_tokenizer().get_eos_token_id())
+
+    for links in image_links_for_testing[2]:
+        # NPU only works with single image input
+        assert len(links) == 1
+        image = get_image_by_link(links[0])
+
+        ref_out = cpu_pipe.generate(prompts[0], images=[image], generation_config=generation_config)
+        actual_out = npu_pipe.generate(prompts[0], images=[image], generation_config=generation_config)
+
+        assert ref_out.texts[0] == actual_out.texts[0]